Gemini 3.5 Live Translate icon

Gemini 3.5 Live Translate

Gemini 3.5 Live Translateは、開発者、Google Meet、Google Translateアプリ向けのGoogleのほぼリアルタイム音声翻訳モデルです。70以上の言語に対応し、ライブ会話で自然な音声翻訳を生成します。

Gemini 3.5 Live Translate

Gemini 3.5 Live Translateができること

Gemini 3.5 Live Translateは、ライブの音声対音声翻訳のためのGoogleの音声モデルです。70以上の言語を検出し、音声がストリーミングされると同時に処理し、話し手に近い自然な翻訳音声をほぼリアルタイムで生成します。

Googleはこのモデルを3つの製品面で展開しています。開発者はGemini Live APIとGoogle AI Studioから利用でき、企業はGoogle Meetのプライベートプレビューで使用でき、一般ユーザーはAndroidとiOS版のGoogle Translateアプリで利用できます。このモデルは、低遅延、自然な音声出力、多言語会話が重要なライブ通訳シナリオ向けに設計されています。

主な機能

自動言語検出

このモデルは70以上の言語を自動で検出し、手動で言語を設定しなくてもライブ音声を翻訳できるため、多言語会話での手間を減らします。

ほぼリアルタイムの音声対音声翻訳

発話の終了を待ってからまとめて処理するのではなく、継続的に翻訳し、話し手から数秒遅れにとどまるため、会話をより自然に感じられます。

自然な音声出力

Googleによると、翻訳音声は話し手の抑揚、テンポ、ピッチを保つため、出力が元の話し方により近く聞こえます。

ストリーミング対応とノイズ耐性

このモデルは、ストリーミング音声や雑音が多く予測しづらい環境に対応するよう設計されており、ライブ通話、会議、授業、放送に適しています。

Gemini Live APIによる開発者アクセス

Googleによると、このモデルはGemini Live APIとGoogle AI Studioを通じて利用でき、Agora、Fishjam、LiveKit、Pipecat、Vision AgentsなどのパートナーがこれらのAPIを使って音声翻訳アプリを構築しています。

SynthID透かし

Googleによると、生成されるすべての音声にはSynthIDの透かしが付与され、AI生成音声であることを検出できるようになっています。

適用シーン

  • 多言語のライブ会話

    面接、通話、国境をまたぐ会話など、2人以上の話し手が言語の壁を越えて自然に会話を続ける必要があるライブ通訳にこのモデルを使います。

  • Google Meetでのビジネス会議

    Google Workspaceで会議を行うチームは、ビジネス通話中の音声翻訳にMeet統合を利用でき、提供開始時点ではプライベートプレビューと説明されています。

  • カスタム翻訳アプリ

    開発者はGoogle AI StudioやGemini Live APIを通じて音声翻訳体験を構築でき、リアルタイムメディア基盤に接続するアプリも含まれます。

  • Translateアプリでのモバイル翻訳

    AndroidまたはiOSのGoogle Translateアプリを使う人は、よりシームレスな外出先での翻訳にLive translateを利用でき、ヘッドホンを使ったリスニングやAndroidの受話口モードも含まれます。

  • 公開または騒がしい環境でのライブ音声セッション

    授業、放送、雑音の多い環境など、ストリーミング翻訳と低遅延が逐次書き起こしより重要な場面に適しています。

Pros and Cons

Pros

  • 70以上の言語に対応し、話されている言語を自動検出します。
  • 全文の終了を待たずに音声を継続的に翻訳するため、不自然な間が減ります。
  • 翻訳出力でも抑揚、テンポ、ピッチなどの音声特性を保持します。
  • 開発者向けツール、Meet、Google Translateアプリなど、複数の面で利用できます。
  • 雑音が多く予測しづらい環境やストリーミング音声のワークフローに対応します。

Cons

  • ローンチ記事には、個別の価格やすべての提供面における一般提供日の記載がありません。
  • Google Meetでの利用は、提供開始時点では一部の企業向けWorkspace顧客に対するプライベートプレビューと説明されており、すぐに広く公開されるわけではありません。
  • ソースでは、設定手順、デバイス要件、対応ワークフローの詳細が十分に説明されていません。

FAQ

Gemini 3.5 Live Translateはどこで利用できますか?

Googleによると、3.5 Live Translateは、Gemini Live APIとGoogle AI Studioを通じて開発者向けにパブリックプレビューとして提供され、Google Meetでは一部の企業向けユーザーにプライベートプレビューとして、Google TranslateアプリではAndroidとiOS向けに全ユーザーへ展開されています。リリースはこれらの製品とプレビューから開始されると説明されています。

Google Meetではどのように動作しますか?

Google Meetでは、音声翻訳に今後3.5 Live Translateが使われます。Googleは、この更新により70以上の言語をサポートし、1つの会議で2,000以上の言語組み合わせに対応し、音声翻訳へ即座にアクセスできるようインターフェースを更新すると述べています。

Google Translateではどのように提供されますか?

Google Translateでは、Live translate機能がAndroidとiOSでこのモデルをグローバルに利用します。Googleによると、ユーザーは任意のヘッドホンを接続してよりシームレスに使え、Androidユーザーにはスマートフォンの受話口を通じて翻訳音声をストリーミングするリスニングモードも提供されます。

ソースには価格情報はありますか?

ローンチ記事には、個別の価格は記載されていません。ソースで示されている公開情報は、製品面とプレビューレベルによる提供状況であり、開発者向けのパブリックプレビュー、選定されたGoogle Workspaceの企業顧客向けのプライベートプレビュー、そしてGoogle Translateでのグローバル展開です。

安全性や出力保護について記載はありますか?

Googleは、自社モデルが生成するすべての音声にはSynthIDによる透かしが入ると述べており、安全性と責任に関する詳細はモデルカードを参照するよう案内しています。

Quick Facts

カテゴリ
AI翻訳 / 音声モデル
プラットフォーム
Google AI Studio、Gemini Live API、Google Meet、AndroidとiOS版Google Translate
言語
70以上の言語
提供状況
開発者向けにパブリックプレビュー、Meetでは一部Workspace顧客向けにプライベートプレビュー、Google Translateでグローバル展開
ソースドメイン
blog.google
出力
ほぼリアルタイムの音声対音声翻訳音声