Realtime and audio

OpenAI API 指南，帮助开发者为实时音频、翻译、转录、语音生成和支持音频的聊天选择合适的语音架构，并匹配对应会话类型、端点与连接方式。

AI语音识别

AI语音助手

语音转文字

访问网站

概述

Realtime and audio 是一份 OpenAI API 指南，用于为特定应用选择合适的语音架构。它区分了用于实时、低延迟音频的 Realtime 会话，以及用于基于文件、有边界或生成式语音工作流的基于请求音频 API。

该指南涵盖语音代理、实时翻译、实时转录、语音生成以及支持音频的聊天模型。它还解释了会话类型、传输方式、安全标识符，以及将 beta 版 Realtime 集成迁移到 GA 接口时需要进行的更改。

核心能力

适用于不同语音工作流的会话类型

根据应用是否需要响应、实时翻译或仅输出转录，选择语音代理、翻译或转录会话类型。

持续的实时音频连接

在客户端发送音频、接收事件并实时更新会话状态时，保持 Realtime 会话持续打开。

浏览器就绪的语音代理路径

使用 Agents SDK 和 WebRTC 构建浏览器语音代理，并可选择连接到服务器端工具。

专用的实时翻译流程

使用专门的翻译端点进行持续语音翻译，而不是标准的助手轮次生命周期。

可配置的实时转录延迟

通过 gpt-realtime-whisper 延迟控制调节实时转录，在更早的部分文本和转录质量之间进行权衡。

与音频源匹配的传输选项

根据音频的采集和播放位置选择 WebRTC、WebSocket 或 SIP，从浏览器客户端到电话系统都适用。

常见用例

语音代理
构建一个助手，它能聆听实时音频、回应用户、调用工具，并在同一会话中维护对话状态。
实时翻译
使用专门的实时翻译会话，在语音说出时进行翻译，并流式输出翻译后的音频和转录增量。
转录
将流式音频转为转录增量，或者在不需要模型生成口语回复时把音频文件处理为文本。
语音生成
使用基于请求的语音生成模型，将文本生成自然听感的口语音频。
支持音频的聊天
当你想扩展以文本为主的工作流时，使用支持音频的聊天模型为现有的 Chat Completions 应用添加音频。

Pros and Cons

Pros

帮助开发者在语音代理、翻译、转录和基于请求的音频路径之间做出选择。
解释每种会话类型适合使用哪个端点或模式。
涵盖浏览器、服务器、移动端和电话系统的连接方式。
包含从 beta 版 Realtime 集成迁移到 GA 接口的指导。
补充了关于安全标识符和延迟调优的实用说明。

Cons

该指南聚焦于架构和工作流选择，因此不提供定价或性能基准。
某些连接方式和模型在使用前需要确认支持情况，尤其是用于翻译或转录的 SIP。

FAQ

我应该在什么时候使用 Realtime 指南，而不是基于请求的音频 API？

当你在实时会话和基于请求的音频 API 之间进行选择时，使用 Realtime and audio 指南。对于需要低延迟的实时音频，Realtime 会话最合适；对于文件、有限请求或不需要实时会话的生成语音，基于请求的音频 API 更合适。

什么样的应用应该使用语音代理会话？

当应用需要响应用户、调用工具并管理对话状态时，使用语音代理会话。该指南还会将浏览器语音代理指向 Voice agents 指南，该指南使用 Agents SDK 和 WebRTC 处理浏览器音频，并且可以连接到服务器端工具。

翻译会话和转录会话有什么区别？

当应用应在语音到达时持续翻译它时，使用翻译会话；当应用需要从流式音频中获取实时转录增量，但不需要模型生成的口语回复时，使用转录会话。

我应该选择哪种连接方式？

WebRTC 适用于直接采集或播放音频的浏览器和移动客户端。WebSocket 适用于已经接收原始音频的服务器端媒体管道、呼叫系统或工作进程，而 SIP 适用于电话语音代理。

Realtime 会话支持安全标识符吗？

当应用会识别单个最终用户时，指南建议为 Realtime API 请求添加一个稳定、保护隐私的安全标识符。它应通过 OpenAI-Safety-Identifier 请求头发送，并且在同一用户的不同会话中保持稳定。

Quick Facts

类别: Developer Tool
产品领域: OpenAI API
主要关注点: 实时语音和音频工作流
来源域名: developers.openai.com
主要会话类型: 语音代理、翻译和转录会话
相关传输选项: WebRTC、WebSocket 和 SIP

Realtime and audio 替代品

Lemon

Lemon 是一款 Mac 语音助手，按下 fn 即可将口述指令转为成稿或任务完成。提供免费 Basic 方案与付费 Pro 方案，支持在同一标签页内完成工作。

QuickQuill

QuickQuill 是一款适用于 macOS 的本地语音输入与转写应用，可在设备上录制会议、转写音频、生成摘要并导出笔记，无需使用云服务。

Speech to Text Converter

Speech to Text Converter 是一款基于浏览器的语音转文字工具，支持实时听写和上传音频、视频文件转录。提供免费版满足短任务，Pro 版支持无限转录、AI 摘要、翻译、说话人识别和高级导出。

Pewbeam

Pewbeam 是一款教会演示应用，可在讲道中实时聆听并识别圣经经文引用，自动在屏幕上显示对应经文，帮助牧师、投影团队和教会媒体志愿者减少现场手动切换幻灯片。

PXZ AI

一个集成图像、视频、语音、写作和聊天工具的全能AI平台，以增强创造力和协作。

Gemma AI

Gemma AI 是一款电话提醒应用，会按计划给你打电话提醒，而不是推送通知。支持 Google Calendar 同步与自然对话式通话交互，帮助你更直接地按时安排。