Realtime and audio

OpenAI API 指南，協助選擇即時音訊、翻譯、轉錄、語音生成與可音訊聊天的正確語音架構，對應各應用的 session 類型、端點與連線方式。

概覽

Realtime and audio 是一份 OpenAI API 指南，協助為特定應用選擇正確的語音架構。它區分用於即時、低延遲音訊的 Realtime sessions，以及用於檔案型、有限範圍或生成式語音工作流程的 request-based audio APIs。

本指南涵蓋 voice agents、live translation、realtime transcription、speech generation，以及可音訊的 chat models。它也說明 session types、傳輸選項、安全識別碼，以及將 beta Realtime integration 遷移至 GA interface 時所需的變更。

核心功能

適用於不同語音工作流程的 session types

根據應用程式是否需要回應、即時翻譯或僅轉錄輸出，在 voice-agent、translation 與 transcription session types 之間做選擇。

持續的即時音訊連線

在用戶端傳送音訊、接收事件並即時更新 session state 時，維持 Realtime session 開啟。

適用於瀏覽器的 voice-agent 路徑

使用 Agents SDK 與 WebRTC 建立瀏覽器 voice agents，並可選擇連接到伺服器端工具。

專用的即時翻譯流程

使用專用的 translation endpoint 進行持續語音翻譯，而不是標準的 assistant turn lifecycle。

可設定的即時轉錄延遲

透過 gpt-realtime-whisper latency controls 調整即時轉錄，在較早的部分文字與轉錄品質之間取得平衡。

依音訊來源選擇的傳輸方式

根據音訊擷取與播放的位置，在 WebRTC、WebSocket 或 SIP 之間選擇，從瀏覽器用戶端到電話系統皆可對應。

常見使用案例

Voice agents
建立一個可聆聽即時音訊、回應使用者、呼叫工具，並在同一個 session 中維持對話狀態的助理。
Live translation
使用專用的 realtime translation session，在語音被說出時即時翻譯，並串流翻譯後的音訊與 transcript deltas。
Transcription
將串流音訊轉為 transcript deltas，或在不需要模型生成口語回應時，把音訊檔案轉成文字。
Speech generation
使用 request-based speech generation models，將文字轉換為自然聽感的口語音訊。
Audio-capable chat
當你想延伸以文字為主的工作流程時，使用可音訊的 chat models，為既有的 Chat Completions app 加上音訊功能。

Pros and Cons

Pros

協助開發者在 voice agents、translation、transcription 與 request-based audio 路徑之間做選擇。
說明每種 session type 適用的 endpoint 或模式。
涵蓋瀏覽器、伺服器、行動裝置與電話系統的連線方式。
包含從 beta Realtime integration 遷移到 GA interface 的指引。
補充 safety identifiers 與延遲調校的實務注意事項。

Cons

本指南聚焦於架構與工作流程選擇，因此不提供定價或效能基準。
某些連線方式與模型在使用前需要確認支援情況，尤其是 SIP 搭配 translation 或 transcription 時。

FAQ

我應該何時使用 Realtime 指南，而不是 request-based audio APIs？

當你在即時 session 與 request-based audio API 之間做選擇時，請使用 Realtime and audio 指南。Realtime sessions 最適合需要低延遲的即時音訊；request-based audio APIs 則更適合檔案型、有限範圍或不需要 live session 的語音生成工作流程。

哪一類應用程式應該使用 voice-agent session？

當應用程式應該回應使用者、呼叫工具，並管理對話狀態時，請使用 voice-agent session。指南也會將瀏覽器 voice agents 指向 Voice agents 指南，該指南使用 Agents SDK 搭配 WebRTC 來處理瀏覽器音訊，並可連接到伺服器端工具。

translation session 與 transcription session 有何差異？

當應用程式需要在語音到達時持續進行翻譯時，請使用 translation session；當應用程式需要從串流音訊取得即時 transcript deltas，但不需要模型生成的口語回應時，請使用 transcription session。

我應該選擇哪一種連線方式？

WebRTC 適用於直接擷取或播放音訊的瀏覽器與行動用戶端。WebSocket 適用於已接收原始音訊的伺服器端媒體管線、通話系統或 worker，而 SIP 則適用於電話語音代理。

Realtime sessions 支援 safety identifiers 嗎？

當你的應用程式會識別個別終端使用者時，指南建議為 Realtime API requests 加入穩定且保護隱私的 safety identifier。這個識別碼應透過 OpenAI-Safety-Identifier header 傳送，並在同一位使用者的不同 sessions 間保持穩定。

Quick Facts

類別: Developer Tool
產品領域: OpenAI API
主要重點: Realtime speech and audio workflows
來源網域: developers.openai.com
主要 session types: Voice-agent, translation, and transcription sessions
相關傳輸選項: WebRTC, WebSocket, and SIP