OpenAI Realtime API
OpenAI Realtime API обеспечивает низколатентную мультимодальную связь для создания таких приложений, как голосовые агенты, поддерживая преобразование речи в речь, аудио/изображения/текстовые входы и аудио/текстовые выходы.
Что такое OpenAI Realtime API?
Что такое OpenAI Realtime API?
OpenAI Realtime API — это специализированный интерфейс, предназначенный для обеспечения сверхнизколатентной связи с моделями OpenAI. Его основное преимущество заключается в обработке непрерывных двунаправленных потоков данных, что делает его идеальным для интерактивных, чувствительных ко времени приложений. Этот API нативно поддерживает сложные мультимодальные взаимодействия, позволяя разработчикам интегрировать функциональность преобразования речи в речь, обрабатывать комбинированные входы аудио, изображений и текста, а также генерировать аудио- или текстовые выходы практически в реальном времени.
Эта возможность открывает двери для создания сложных, отзывчивых приложений, таких как передовые голосовые агенты непосредственно в браузере или интеграции служб транскрипции аудио в реальном времени. Сосредоточив внимание на скорости и непрерывном потоке данных, Realtime API выходит за рамки традиционных моделей "запрос/ответ", предлагая основу для по-настоящему разговорных и иммерсивных AI-взаимодействий.
Ключевые особенности
- Низколатентная связь: Оптимизирована для минимальной задержки, что критически важно для естественного звучания голосовых взаимодействий и немедленной обратной связи.
- Мультимодальная поддержка: Принимает входы, включая аудио, изображения и текст, и генерирует аудио- и текстовые выходы.
- Нативная поддержка преобразования "речь-в-речь": Специально разработана для создания плавных голосовых агентов, где аудиовход немедленно преобразуется в аудиовыход.
- Гибкие методы подключения: Поддерживает три основных интерфейса для различных сред развертывания:
- WebRTC: Идеально подходит для прямого взаимодействия на стороне клиента в веб-браузерах.
- WebSocket: Наилучшим образом подходит для серверных приложений, требующих стабильных соединений с низкой задержкой.
- SIP: Разработан для интеграции с традиционными системами телефонии VoIP.
- Транскрипция аудио в реальном времени: Предоставляет возможность транскрибировать аудиопотоки по мере их поступления через соединение WebSocket.
- Управление на стороне сервера: Позволяет разработчикам управлять жизненным циклом сессии, реализовывать защитные механизмы и вызывать внешние инструменты с сервера.
- Упрощенная аутентификация: Использует эфемерные ключи API, генерируемые через выделенную конечную точку REST (
/v1/realtime/client_secrets) для безопасной инициализации на стороне клиента.
Как использовать OpenAI Realtime API
Начало работы с Realtime API часто включает использование Agents SDK для TypeScript, который обеспечивает самый быстрый путь к созданию голосовых агентов для браузера. Общий рабочий процесс включает установку соединения, управление сессией, а затем взаимодействие с моделью.
- Инициализация: Определите параметры вашего агента (например, имя и инструкции) с помощью SDK или подготовьтесь к прямому подключению.
- Настройка соединения: Выберите метод подключения (WebRTC для браузера, WebSocket для сервера). Для WebRTC вы обычно используете эфемерный ключ, полученный из конечной точки REST, для инициализации
RealtimeSession. - Подключение сессии: Вызовите
session.connect(), чтобы автоматически подключить микрофон и аудиовыход (для голосовых агентов) или установить поток данных. - Взаимодействие: После подключения используйте предоставленные руководства для запросов, управления событиями разговора или реализации серверной логики (например, вызова инструментов) для управления поведением модели.
Для прямой интеграции вне Agents SDK разработчикам необходимо ознакомиться с конкретными руководствами для соединений WebRTC, WebSocket или SIP, чтобы обработать инициализацию сессии и обмен данными (например, SDP-согласование для WebRTC).
Варианты использования
- Интерактивные голосовые помощники: Создание сложных, естественно звучащих разговорных агентов, доступных непосредственно через веб-браузеры или мобильные приложения, предлагающих немедленные голосовые ответы без заметной задержки.
- Боты поддержки клиентов в реальном времени: Развертывание AI-агентов, которые могут обрабатывать голосовые вызовы через интеграцию SIP, обеспечивая немедленную сортировку, поиск информации или обработку сложных транзакций по телефону.
- Мультимодальная обработка данных: Создание приложений, которые анализируют прямые видеопотоки (используя ввод изображений) в сочетании с голосовыми командами (аудиовход) для выполнения сложных задач, таких как руководство пользователя по процессу физического ремонта.
- Транскрипция и обобщение встреч в реальном времени: Использование соединения WebSocket для транскрипции аудио в реальном времени во время встреч, что позволяет немедленно индексировать, помечать ключевые слова или генерировать краткие сводки на лету.
- NPC для игр с низкой задержкой: Интеграция AI-персонажей в интерактивные среды реального времени, где голосовые команды игрока должны приводить к немедленным, контекстно-зависимым голосовым ответам от игрового персонажа.
FAQ
В: Какова основная разница между Realtime API и стандартными вызовами REST API? О: Стандартный REST API оптимизирован для дискретных операций "запрос/ответ". Realtime API создан для непрерывной двунаправленной потоковой связи, отдавая приоритет сверхнизкой задержке, необходимой для интерактивного голоса и обмена данными в реальном времени.
В: Могу ли я использовать Realtime API напрямую в мобильном приложении? О: Да. Хотя Agents SDK фокусируется на использовании в браузере через WebRTC, базовый Realtime API поддерживает соединения WebSocket, которые могут быть реализованы в нативных мобильных средах после безопасного получения необходимых эфемерных клиентских секретов с вашего серверного бэкенда.
В: Как обрабатывать аутентификацию для WebRTC-соединений на стороне клиента?
О: Сначала необходимо вызвать серверную конечную точку REST (POST /v1/realtime/client_secrets), используя ваш основной ключ API. Это возвращает эфемерный токен (ek_...), который затем безопасно используется клиентом для инициализации сессии WebRTC или WebSocket.
В: Что случилось с заголовком OpenAI-Beta: realtime=v1?
О: Этот заголовок требуется только в том случае, если вы намеренно сохраняете поведение более старого интерфейса бета-версии Realtime. Для новых интеграций, использующих интерфейс общего доступа (GA), этот заголовок следует удалить из запросов REST API и соединений WebSocket.
В: Какой метод подключения обеспечивает самую низкую задержку для веб-приложения? О: Для прямого взаимодействия в браузере WebRTC, как правило, является рекомендуемым и наиболее оптимизированным методом подключения, предоставляемым Realtime API, для достижения максимально низкой задержки между клиентом и моделью.
Alternatives
MiniCPM-o 4.5
MiniCPM-o 4.5 — это высокоэффективная мультимодальная модель ИИ, предназначенная для обработки визуальных данных, речи и полно-дуктных прямых трансляций. Она обеспечивает передовое визуальное понимание, синтез речи и возможности взаимодействия в реальном времени в компактной архитектуре с 9 миллиардами параметров.
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
BookAI.chat
BookAI позволяет вам общаться с вашими книгами, просто предоставив название и автора.
紫东太初
Новое поколение многомодальной большой модели, запущенной Институтом автоматизации Китайской академии наук и Уханьским институтом искусственного интеллекта, поддерживающей многократные вопросы и ответы, создание текста, генерацию изображений и комплексные задачи вопросов и ответов.
LobeHub
LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.
Claude Opus 4.5
Представляем лучшую модель в мире для кодирования, агентов, использования компьютеров и корпоративных рабочих процессов.