Gemini 3.5 Live Translate icon

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 是 Google 為開發者、Google Meet 與 Google 翻譯應用提供的近即時語音翻譯模型,支援 70+ 種語言,適合即時對話的自然語音翻譯。

Gemini 3.5 Live Translate

Gemini 3.5 Live Translate 的功能

Gemini 3.5 Live Translate 是 Google 的即時語音對語音翻譯音訊模型。它可偵測 70+ 種語言,能在語音串流時進行處理,並產生在近即時狀態下貼近說話者的翻譯音訊。

Google 正將這項模型推向三個產品介面:開發者可透過 Gemini Live API 與 Google AI Studio 存取,企業可在 Google Meet 的私密預覽中使用,而一般使用者則可在 Android 和 iOS 版 Google 翻譯應用中使用。此模型適用於低延遲、自然語音輸出與多語言對話都很重要的即時口譯情境。

主要功能

自動語言偵測

此模型可自動偵測 70+ 種語言,並能在無需手動設定語言的情況下即時翻譯語音,降低多語言對話中的操作摩擦。

近即時語音對語音翻譯

模型不必等完整一句說完才翻譯,而是持續進行翻譯,並只比說話者慢幾秒,有助於讓對話聽起來更自然。

自然聽感的語音輸出

Google 表示,翻譯後的語音會保留說話者的語調、節奏與音高,讓輸出更接近原本的表達方式。

串流與雜訊韌性

此模型專為處理串流語音以及嘈雜、不可預測的環境而設計,適合即時通話、會議、課程與廣播。

透過 Gemini Live API 存取

Google 表示,可透過 Gemini Live API 與 Google AI Studio 使用此模型,而 Agora、Fishjam、LiveKit、Pipecat 與 Vision Agents 等合作夥伴也使用這些 API 來打造語音翻譯應用。

SynthID 浮水印

Google 表示,所有產生的音訊都會以 SynthID 加上浮水印,以便辨識 AI 生成語音。

適用場景

  • 多語言即時對話

    當兩位或更多說話者需要跨越語言障礙仍自然對話時,可用於即時口譯,例如訪談、通話或跨境對話。

  • Google Meet 商務會議

    在 Google Workspace 中進行會議的團隊,可使用 Meet 整合在商務通話中進行語音翻譯,且發表時的存取方式為私密預覽。

  • 客製化翻譯應用

    開發者可在 Google AI Studio 或透過 Gemini Live API 建立語音翻譯體驗,包括可串接即時媒體基礎架構的應用程式。

  • 翻譯應用中的行動翻譯

    在 Android 或 iOS 上使用 Google 翻譯應用的人,可使用 Live translate 進行更順暢的行動翻譯,包含以耳機收聽與 Android 聽筒模式。

  • 公開或吵雜環境中的即時音訊會話

    此模型適合課程、廣播與嘈雜環境等場景,在這些情況下,串流翻譯與低延遲比逐輪轉錄更重要。

Pros and Cons

Pros

  • 支援 70+ 種語言,並可自動偵測正在說出的語言。
  • 持續翻譯語音,不必等待整段說完,因此能減少尷尬停頓。
  • 翻譯輸出會保留語調、節奏與音高等語音特徵。
  • 可透過開發者工具、Meet 與 Google 翻譯應用等多個介面使用。
  • 可在嘈雜、不可預測的環境與串流音訊工作流程中使用。

Cons

  • 發布文章未為每個介面提供獨立定價或公開正式上線日期。
  • Google Meet 的存取在發表時被描述為僅開放給部分商務 Workspace 客戶的私密預覽,因此並非一開始就全面開放。
  • 來源未詳細說明設定步驟、裝置需求或所有支援的工作流程。

FAQ

Gemini 3.5 Live Translate 在哪裡可用?

Google 表示,3.5 Live Translate 正透過 Gemini Live API 與 Google AI Studio 向開發者提供公開預覽,向企業在 Google Meet 中提供私密預覽,並向所有人透過 Android 和 iOS 版 Google 翻譯應用推出。來源將此發布描述為先從這些產品與預覽階段開始。

它在 Google Meet 中如何運作?

在 Google Meet 中,語音翻譯很快會使用 3.5 Live Translate。Google 表示,這項更新將提供 70+ 種語言、支援單一會議中超過 2,000 種語言組合,並更新介面以便即時使用語音翻譯。

它在 Google 翻譯中如何呈現?

在 Google 翻譯中,Live translate 功能於 Android 和 iOS 全球使用該模型。Google 表示,使用者可以連接任一對耳機以獲得更順暢的體驗,而 Android 使用者也會獲得一種透過手機聽筒串流播放翻譯音訊的聆聽模式。

來源有提到價格嗎?

發布文章未列出獨立定價。來源中的公開訊號是依產品介面與預覽層級提供:開發者可使用公開預覽、特定 Google Workspace 商務客戶可使用私密預覽,以及 Google 翻譯的全球推出。

是否有任何安全性或輸出保護措施?

Google 提到,其模型產生的所有音訊都會以 SynthID 加上浮水印,並指向模型卡以取得安全性與責任相關細節。

Quick Facts

類別
AI 翻譯/音訊模型
平台
Google AI Studio、Gemini Live API、Google Meet、Android 和 iOS 版 Google 翻譯
語言
70+ 種語言
可用性
開發者可用公開預覽;部分 Workspace 客戶可在 Meet 中使用私密預覽;Google 翻譯全球推出
來源網域
blog.google
輸出
近即時語音對語音翻譯音訊