什麼是 OpenAI Realtime API?
什麼是 OpenAI Realtime API?
The OpenAI Realtime API 是一個專門設計的介面,旨在實現與 OpenAI 模型之間極低延遲的通訊。其主要優勢在於處理連續、雙向的資料流,非常適合互動式、對時間敏感的應用程式。此 API 原生支援複雜的多模態互動,允許開發人員整合語音到語音功能,處理音訊、圖像和文字的組合輸入,並以近乎即時的方式生成音訊或文字輸出。
此功能為建構複雜、響應迅速的應用程式開啟了大門,例如直接在瀏覽器中建構先進的語音代理,或整合即時音訊轉錄服務。透過專注於速度和連續資料流,Realtime API 超越了傳統的請求/響應模型,為真正具備對話性和沉浸式的人工智慧體驗奠定了基礎。
關鍵功能
- 低延遲通訊: 針對最小延遲進行優化,這對於自然語音互動和即時回饋迴路至關重要。
- 多模態支援: 接受音訊、圖像和文字等輸入,並生成音訊和文字輸出。
- 語音到語音原生支援: 專門為建構流暢的語音代理而設計,其中音訊輸入會立即轉換為音訊輸出。
- 靈活的連線方法: 支援三種主要介面以適應不同的部署環境:
- WebRTC: 適用於瀏覽器內直接的客戶端互動。
- WebSocket: 最適合需要一致、低延遲連線的伺服器端應用程式。
- SIP: 專為與傳統 VoIP 電話系統整合而設計。
- 即時音訊轉錄: 能夠透過 WebSocket 連線即時轉錄傳入的音訊串流。
- 伺服器端控制: 允許開發人員管理工作階段生命週期、實施防護欄,以及從伺服器呼叫外部工具。
- 簡化的身份驗證: 使用透過專用 REST 端點 (
/v1/realtime/client_secrets) 生成的臨時 API 金鑰,以實現安全的客戶端初始化。
如何使用 OpenAI Realtime API
開始使用 Realtime API 通常涉及利用 Agents SDK for TypeScript,這是建構基於瀏覽器的語音代理最快途徑。一般的工作流程涉及建立連線、管理工作階段,然後與模型互動。
- 初始化: 使用 SDK 定義您的代理參數(如名稱和指令),或準備直接連線。
- 連線設定: 選擇您的連線方法(瀏覽器使用 WebRTC,伺服器使用 WebSocket)。對於 WebRTC,您通常會使用從 REST 端點獲取的臨時金鑰來初始化
RealtimeSession。 - 工作階段連線: 呼叫
session.connect()以自動連結麥克風和音訊輸出(適用於語音代理)或建立資料流。 - 互動: 連線後,利用提供的指南進行提示、管理對話事件,或實施伺服器端邏輯(如工具呼叫)來引導模型的行為。
對於 Agents SDK 之外的直接整合,開發人員必須參閱 WebRTC、WebSocket 或 SIP 連線的特定指南,以處理工作階段初始化和資料交換(例如,WebRTC 的 SDP協商)。
使用案例
- 互動式語音助理: 建構複雜、聽起來自然的對話代理,可直接透過網頁瀏覽器或行動應用程式存取,提供無明顯延遲的即時語音回應。
- 即時客戶支援機器人: 部署 AI 代理,透過 SIP 整合處理即時語音通話,提供即時分類、資訊檢索或透過電話進行複雜的交易處理。
- 多模態資料處理: 建構應用程式,分析即時影片饋送(使用圖像輸入)並結合語音指令(音訊輸入)來執行複雜任務,例如指導使用者完成實體維修過程。
- 即時會議轉錄與摘要: 利用 WebSocket 連線對會議期間的音訊進行即時轉錄,以便立即索引、關鍵字標記或即時摘要生成。
- 低延遲遊戲 NPC: 在即時互動環境中整合 AI 角色,其中玩家的語音指令必須立即產生遊戲角色對話式、具備情境感知能力的語音回應。
常見問題 (FAQ)
問:Realtime API 與標準 REST API 呼叫的主要區別是什麼? 答:標準 REST API 針對離散的請求/響應操作進行了優化。Realtime API 專為連續、雙向的串流通訊而設計,優先考慮互動式語音和即時資料交換所需的極低延遲。
問:我可以直接在行動應用程式中使用 Realtime API 嗎? 答:可以。雖然 Agents SDK 專注於透過 WebRTC 進行瀏覽器使用,但底層的 Realtime API 支援 WebSocket 連線,在您的後端伺服器安全取得必要的臨時客戶端密鑰後,可以在原生行動環境中實作這些連線。
問:我該如何處理客戶端 WebRTC 連線的身份驗證?
答:您必須先使用您的主要 API 金鑰呼叫伺服器端 REST 端點 (POST /v1/realtime/client_secrets)。這會返回一個臨時的 token (ek_...),客戶端隨後會安全地使用該 token 來初始化 WebRTC 或 WebSocket 工作階段。
問:OpenAI-Beta: realtime=v1 標頭發生了什麼事?
答:此標頭僅在您有意保留舊版 Realtime beta 介面行為時才需要。對於使用正式發行版 (GA) 介面的新整合,應從 REST API 請求和 WebSocket 連線中移除此標頭。
問:對於網頁應用程式,哪種連線方法能提供最低的延遲? 答:對於直接的瀏覽器互動,WebRTC 通常是 Realtime API 推薦且最優化的連線方法,用於在客戶端和模型之間實現最低的可能延遲。
Alternatives
MiniCPM-o 4.5
MiniCPM-o 4.5 是一款功能強大的多模態人工智慧模型,專為視覺、語音和全雙工實時串流而設計,提供先進的視覺理解、語音合成和即時互動能力,架構緊湊,擁有9B參數。它融合多個先進的AI組件,如 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,實現多任務的最先進性能。其核心目標是讓強大的多模態AI技術更易於普及,提供一個多功能、高效且易於使用的模型,適用於研究、開發和實際應用部署。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
BookAI.chat
BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。
紫东太初
中國科學院自動化研究所和武漢人工智慧研究院推出的新一代多模態大模型,支持多輪問答、文本創作、圖像生成等全面問答任務。
LobeHub
LobeHub 是一個開源平台,專為構建、部署和協作 AI 代理隊友而設計,可作為通用的 LLM Web UI。
Claude Opus 4.5
介紹全球最佳的編碼、代理、計算機使用和企業工作流程模型。