自動言語検出
このモデルは70以上の言語を自動で検出し、手動で言語を設定しなくてもライブ音声を翻訳できるため、多言語会話での手間を減らします。
Gemini 3.5 Live Translateは、ライブの音声対音声翻訳のためのGoogleの音声モデルです。70以上の言語を検出し、音声がストリーミングされると同時に処理し、話し手に近い自然な翻訳音声をほぼリアルタイムで生成します。
Googleはこのモデルを3つの製品面で展開しています。開発者はGemini Live APIとGoogle AI Studioから利用でき、企業はGoogle Meetのプライベートプレビューで使用でき、一般ユーザーはAndroidとiOS版のGoogle Translateアプリで利用できます。このモデルは、低遅延、自然な音声出力、多言語会話が重要なライブ通訳シナリオ向けに設計されています。
このモデルは70以上の言語を自動で検出し、手動で言語を設定しなくてもライブ音声を翻訳できるため、多言語会話での手間を減らします。
発話の終了を待ってからまとめて処理するのではなく、継続的に翻訳し、話し手から数秒遅れにとどまるため、会話をより自然に感じられます。
Googleによると、翻訳音声は話し手の抑揚、テンポ、ピッチを保つため、出力が元の話し方により近く聞こえます。
このモデルは、ストリーミング音声や雑音が多く予測しづらい環境に対応するよう設計されており、ライブ通話、会議、授業、放送に適しています。
Googleによると、このモデルはGemini Live APIとGoogle AI Studioを通じて利用でき、Agora、Fishjam、LiveKit、Pipecat、Vision AgentsなどのパートナーがこれらのAPIを使って音声翻訳アプリを構築しています。
Googleによると、生成されるすべての音声にはSynthIDの透かしが付与され、AI生成音声であることを検出できるようになっています。
面接、通話、国境をまたぐ会話など、2人以上の話し手が言語の壁を越えて自然に会話を続ける必要があるライブ通訳にこのモデルを使います。
Google Workspaceで会議を行うチームは、ビジネス通話中の音声翻訳にMeet統合を利用でき、提供開始時点ではプライベートプレビューと説明されています。
開発者はGoogle AI StudioやGemini Live APIを通じて音声翻訳体験を構築でき、リアルタイムメディア基盤に接続するアプリも含まれます。
AndroidまたはiOSのGoogle Translateアプリを使う人は、よりシームレスな外出先での翻訳にLive translateを利用でき、ヘッドホンを使ったリスニングやAndroidの受話口モードも含まれます。
授業、放送、雑音の多い環境など、ストリーミング翻訳と低遅延が逐次書き起こしより重要な場面に適しています。
Googleによると、3.5 Live Translateは、Gemini Live APIとGoogle AI Studioを通じて開発者向けにパブリックプレビューとして提供され、Google Meetでは一部の企業向けユーザーにプライベートプレビューとして、Google TranslateアプリではAndroidとiOS向けに全ユーザーへ展開されています。リリースはこれらの製品とプレビューから開始されると説明されています。
Google Meetでは、音声翻訳に今後3.5 Live Translateが使われます。Googleは、この更新により70以上の言語をサポートし、1つの会議で2,000以上の言語組み合わせに対応し、音声翻訳へ即座にアクセスできるようインターフェースを更新すると述べています。
Google Translateでは、Live translate機能がAndroidとiOSでこのモデルをグローバルに利用します。Googleによると、ユーザーは任意のヘッドホンを接続してよりシームレスに使え、Androidユーザーにはスマートフォンの受話口を通じて翻訳音声をストリーミングするリスニングモードも提供されます。
ローンチ記事には、個別の価格は記載されていません。ソースで示されている公開情報は、製品面とプレビューレベルによる提供状況であり、開発者向けのパブリックプレビュー、選定されたGoogle Workspaceの企業顧客向けのプライベートプレビュー、そしてGoogle Translateでのグローバル展開です。
Googleは、自社モデルが生成するすべての音声にはSynthIDによる透かしが入ると述べており、安全性と責任に関する詳細はモデルカードを参照するよう案内しています。
Wallieは、画面を見てチャットを聞き、設定したペルソナでライブ解説を生成するオープンソースAI streamer。自分のキーでローカル実行でき、顔出しなし配信や自律配信、リアルタイム反応に最適です。
Sanota is an app that turns spoken memories, reflections, and interviews into clear written stories. It supports personal storytelling, family history, and shared memories, with guided prompts and subscription pricing.
Carbon Voice is an asynchronous voice messaging app for teams and individuals, with transcripts, AI catch-up, and cross-device access. It helps people and agents communicate without needing a live call.
BeFreed is a personalized audio learning app that turns books and other knowledge sources into narrated listening experiences. It helps people learn on demand through interactive audio, voice selection, and built-in learning tools.
MagicSlides is an AI presentation generator that turns text, topics, documents, URLs, and videos into slide decks. It creates presentations in Google Slides by default and supports PowerPoint export, with multilingual output and AI-assisted editing.
Microsoft Translator is a Bing translation web app for translating short text between English and more than 100 languages. It also supports image capture translation and basic output actions like listen and copy.