自動語言偵測
此模型可自動偵測 70+ 種語言,並能在無需手動設定語言的情況下即時翻譯語音,降低多語言對話中的操作摩擦。
Gemini 3.5 Live Translate 是 Google 的即時語音對語音翻譯音訊模型。它可偵測 70+ 種語言,能在語音串流時進行處理,並產生在近即時狀態下貼近說話者的翻譯音訊。
Google 正將這項模型推向三個產品介面:開發者可透過 Gemini Live API 與 Google AI Studio 存取,企業可在 Google Meet 的私密預覽中使用,而一般使用者則可在 Android 和 iOS 版 Google 翻譯應用中使用。此模型適用於低延遲、自然語音輸出與多語言對話都很重要的即時口譯情境。
此模型可自動偵測 70+ 種語言,並能在無需手動設定語言的情況下即時翻譯語音,降低多語言對話中的操作摩擦。
模型不必等完整一句說完才翻譯,而是持續進行翻譯,並只比說話者慢幾秒,有助於讓對話聽起來更自然。
Google 表示,翻譯後的語音會保留說話者的語調、節奏與音高,讓輸出更接近原本的表達方式。
此模型專為處理串流語音以及嘈雜、不可預測的環境而設計,適合即時通話、會議、課程與廣播。
Google 表示,可透過 Gemini Live API 與 Google AI Studio 使用此模型,而 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等合作夥伴也使用這些 API 來打造語音翻譯應用。
Google 表示,所有產生的音訊都會以 SynthID 加上浮水印,以便辨識 AI 生成語音。
當兩位或更多說話者需要跨越語言障礙仍自然對話時,可用於即時口譯,例如訪談、通話或跨境對話。
在 Google Workspace 中進行會議的團隊,可使用 Meet 整合在商務通話中進行語音翻譯,且發表時的存取方式為私密預覽。
開發者可在 Google AI Studio 或透過 Gemini Live API 建立語音翻譯體驗,包括可串接即時媒體基礎架構的應用程式。
在 Android 或 iOS 上使用 Google 翻譯應用的人,可使用 Live translate 進行更順暢的行動翻譯,包含以耳機收聽與 Android 聽筒模式。
此模型適合課程、廣播與嘈雜環境等場景,在這些情況下,串流翻譯與低延遲比逐輪轉錄更重要。
Google 表示,3.5 Live Translate 正透過 Gemini Live API 與 Google AI Studio 向開發者提供公開預覽,向企業在 Google Meet 中提供私密預覽,並向所有人透過 Android 和 iOS 版 Google 翻譯應用推出。來源將此發布描述為先從這些產品與預覽階段開始。
在 Google Meet 中,語音翻譯很快會使用 3.5 Live Translate。Google 表示,這項更新將提供 70+ 種語言、支援單一會議中超過 2,000 種語言組合,並更新介面以便即時使用語音翻譯。
在 Google 翻譯中,Live translate 功能於 Android 和 iOS 全球使用該模型。Google 表示,使用者可以連接任一對耳機以獲得更順暢的體驗,而 Android 使用者也會獲得一種透過手機聽筒串流播放翻譯音訊的聆聽模式。
發布文章未列出獨立定價。來源中的公開訊號是依產品介面與預覽層級提供:開發者可使用公開預覽、特定 Google Workspace 商務客戶可使用私密預覽,以及 Google 翻譯的全球推出。
Google 提到,其模型產生的所有音訊都會以 SynthID 加上浮水印,並指向模型卡以取得安全性與責任相關細節。
Wallie 是開源 AI streamer,可觀看你的螢幕、聆聽聊天室,並以可設定的人設即時生成直播評論;支援本機執行與自有金鑰,適合無真人出鏡、自治直播與即時互動。
Sanota is an app that turns spoken memories, reflections, and interviews into clear written stories. It supports personal storytelling, family history, and shared memories, with guided prompts and subscription pricing.
Carbon Voice is an asynchronous voice messaging app for teams and individuals, with transcripts, AI catch-up, and cross-device access. It helps people and agents communicate without needing a live call.
BeFreed is a personalized audio learning app that turns books and other knowledge sources into narrated listening experiences. It helps people learn on demand through interactive audio, voice selection, and built-in learning tools.
MagicSlides is an AI presentation generator that turns text, topics, documents, URLs, and videos into slide decks. It creates presentations in Google Slides by default and supports PowerPoint export, with multilingual output and AI-assisted editing.
Microsoft Translator is a Bing translation web app for translating short text between English and more than 100 languages. It also supports image capture translation and basic output actions like listen and copy.