UStackUStack
OpenAI Realtime API favicon

OpenAI Realtime API

OpenAI Realtime API обеспечивает низколатентную мультимодальную связь для создания таких приложений, как голосовые агенты, поддерживая преобразование речи в речь, аудио/изображения/текстовые входы и аудио/текстовые выходы.

Посетить Сайт
OpenAI Realtime API

Что такое OpenAI Realtime API?

Что такое OpenAI Realtime API?

OpenAI Realtime API — это специализированный интерфейс, предназначенный для обеспечения сверхнизколатентной связи с моделями OpenAI. Его основное преимущество заключается в обработке непрерывных двунаправленных потоков данных, что делает его идеальным для интерактивных, чувствительных ко времени приложений. Этот API нативно поддерживает сложные мультимодальные взаимодействия, позволяя разработчикам интегрировать функциональность преобразования речи в речь, обрабатывать комбинированные входы аудио, изображений и текста, а также генерировать аудио- или текстовые выходы практически в реальном времени.

Эта возможность открывает двери для создания сложных, отзывчивых приложений, таких как передовые голосовые агенты непосредственно в браузере или интеграции служб транскрипции аудио в реальном времени. Сосредоточив внимание на скорости и непрерывном потоке данных, Realtime API выходит за рамки традиционных моделей "запрос/ответ", предлагая основу для по-настоящему разговорных и иммерсивных AI-взаимодействий.

Ключевые особенности

  • Низколатентная связь: Оптимизирована для минимальной задержки, что критически важно для естественного звучания голосовых взаимодействий и немедленной обратной связи.
  • Мультимодальная поддержка: Принимает входы, включая аудио, изображения и текст, и генерирует аудио- и текстовые выходы.
  • Нативная поддержка преобразования "речь-в-речь": Специально разработана для создания плавных голосовых агентов, где аудиовход немедленно преобразуется в аудиовыход.
  • Гибкие методы подключения: Поддерживает три основных интерфейса для различных сред развертывания:
    • WebRTC: Идеально подходит для прямого взаимодействия на стороне клиента в веб-браузерах.
    • WebSocket: Наилучшим образом подходит для серверных приложений, требующих стабильных соединений с низкой задержкой.
    • SIP: Разработан для интеграции с традиционными системами телефонии VoIP.
  • Транскрипция аудио в реальном времени: Предоставляет возможность транскрибировать аудиопотоки по мере их поступления через соединение WebSocket.
  • Управление на стороне сервера: Позволяет разработчикам управлять жизненным циклом сессии, реализовывать защитные механизмы и вызывать внешние инструменты с сервера.
  • Упрощенная аутентификация: Использует эфемерные ключи API, генерируемые через выделенную конечную точку REST (/v1/realtime/client_secrets) для безопасной инициализации на стороне клиента.

Как использовать OpenAI Realtime API

Начало работы с Realtime API часто включает использование Agents SDK для TypeScript, который обеспечивает самый быстрый путь к созданию голосовых агентов для браузера. Общий рабочий процесс включает установку соединения, управление сессией, а затем взаимодействие с моделью.

  1. Инициализация: Определите параметры вашего агента (например, имя и инструкции) с помощью SDK или подготовьтесь к прямому подключению.
  2. Настройка соединения: Выберите метод подключения (WebRTC для браузера, WebSocket для сервера). Для WebRTC вы обычно используете эфемерный ключ, полученный из конечной точки REST, для инициализации RealtimeSession.
  3. Подключение сессии: Вызовите session.connect(), чтобы автоматически подключить микрофон и аудиовыход (для голосовых агентов) или установить поток данных.
  4. Взаимодействие: После подключения используйте предоставленные руководства для запросов, управления событиями разговора или реализации серверной логики (например, вызова инструментов) для управления поведением модели.

Для прямой интеграции вне Agents SDK разработчикам необходимо ознакомиться с конкретными руководствами для соединений WebRTC, WebSocket или SIP, чтобы обработать инициализацию сессии и обмен данными (например, SDP-согласование для WebRTC).

Варианты использования

  1. Интерактивные голосовые помощники: Создание сложных, естественно звучащих разговорных агентов, доступных непосредственно через веб-браузеры или мобильные приложения, предлагающих немедленные голосовые ответы без заметной задержки.
  2. Боты поддержки клиентов в реальном времени: Развертывание AI-агентов, которые могут обрабатывать голосовые вызовы через интеграцию SIP, обеспечивая немедленную сортировку, поиск информации или обработку сложных транзакций по телефону.
  3. Мультимодальная обработка данных: Создание приложений, которые анализируют прямые видеопотоки (используя ввод изображений) в сочетании с голосовыми командами (аудиовход) для выполнения сложных задач, таких как руководство пользователя по процессу физического ремонта.
  4. Транскрипция и обобщение встреч в реальном времени: Использование соединения WebSocket для транскрипции аудио в реальном времени во время встреч, что позволяет немедленно индексировать, помечать ключевые слова или генерировать краткие сводки на лету.
  5. NPC для игр с низкой задержкой: Интеграция AI-персонажей в интерактивные среды реального времени, где голосовые команды игрока должны приводить к немедленным, контекстно-зависимым голосовым ответам от игрового персонажа.

FAQ

В: Какова основная разница между Realtime API и стандартными вызовами REST API? О: Стандартный REST API оптимизирован для дискретных операций "запрос/ответ". Realtime API создан для непрерывной двунаправленной потоковой связи, отдавая приоритет сверхнизкой задержке, необходимой для интерактивного голоса и обмена данными в реальном времени.

В: Могу ли я использовать Realtime API напрямую в мобильном приложении? О: Да. Хотя Agents SDK фокусируется на использовании в браузере через WebRTC, базовый Realtime API поддерживает соединения WebSocket, которые могут быть реализованы в нативных мобильных средах после безопасного получения необходимых эфемерных клиентских секретов с вашего серверного бэкенда.

В: Как обрабатывать аутентификацию для WebRTC-соединений на стороне клиента? О: Сначала необходимо вызвать серверную конечную точку REST (POST /v1/realtime/client_secrets), используя ваш основной ключ API. Это возвращает эфемерный токен (ek_...), который затем безопасно используется клиентом для инициализации сессии WebRTC или WebSocket.

В: Что случилось с заголовком OpenAI-Beta: realtime=v1? О: Этот заголовок требуется только в том случае, если вы намеренно сохраняете поведение более старого интерфейса бета-версии Realtime. Для новых интеграций, использующих интерфейс общего доступа (GA), этот заголовок следует удалить из запросов REST API и соединений WebSocket.

В: Какой метод подключения обеспечивает самую низкую задержку для веб-приложения? О: Для прямого взаимодействия в браузере WebRTC, как правило, является рекомендуемым и наиболее оптимизированным методом подключения, предоставляемым Realtime API, для достижения максимально низкой задержки между клиентом и моделью.

Alternatives

MiniCPM-o 4.5 favicon

MiniCPM-o 4.5

MiniCPM-o 4.5 — это высокоэффективная мультимодальная модель ИИ, предназначенная для обработки визуальных данных, речи и полно-дуктных прямых трансляций. Она обеспечивает передовое визуальное понимание, синтез речи и возможности взаимодействия в реальном времени в компактной архитектуре с 9 миллиардами параметров.

AakarDev AI favicon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

BookAI.chat favicon

BookAI.chat

BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.

紫东太初 favicon

紫东太初

Новое поколение многомодальной большой модели, запущенной Институтом автоматизации Китайской академии наук и Уханьским институтом искусственного интеллекта, поддерживающей многократные вопросы и ответы, создание текста, генерацию изображений и комплексные задачи вопросов и ответов.

LobeHub favicon

LobeHub

LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.

Claude Opus 4.5 favicon

Claude Opus 4.5

Представляем лучшую модель в мире для кодирования, агентов, использования компьютеров и корпоративных рабочих процессов.

OpenAI Realtime API | UStack