UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2は、テキスト・画像・動画・音声・ドキュメントを単一の埋め込み空間へ。Gemini API/Vertex AIで公開プレビュー提供。

Gemini Embedding 2

Gemini Embedding 2とは?

Gemini Embedding 2は、Geminiアーキテクチャに基づくGoogle初の完全マルチモーダル埋め込みモデルです。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、複数のメディアタイプにわたる検索および分類ワークフローを可能にします。

このモデルは100言語以上のセマンティクスを扱うよう設計されており、異なる入力メディアに対して1種類のベクトル表現を生成することで、マルチモーダルパイプラインを簡素化します。

主な機能

  • 完全マルチモーダル入力対応(テキスト、画像、動画、音声、ドキュメント): 複数のメディアタイプの埋め込みを生成し、アプリケーションが混合コンテンツデータを検索・分類可能。
  • 単一の統一埋め込み空間: テキスト、画像、動画、音声、ドキュメントを同一空間に埋め込み、マルチモーダル検索と分析をサポート。
  • 1回のリクエストでのインターリーブマルチモーダル理解: 複数のモダリティ(例: 画像 + テキスト)を同時に受け入れ、異なるメディア間の関係を捉える。
  • 高容量モダリティ制限: テキストは最大8192 input tokens、リクエストあたり最大6 images(PNG/JPEG)、動画は最大120 seconds(MP4/MOV)、音声は中間転写なしのネイティブ埋め込みをサポート。
  • PDFからのドキュメント埋め込み: コンテンツを他の形式に変換せずに、最大6ページPDFを直接埋め込み。
  • Matryoshka Representation Learning (MRL)による柔軟な埋め込み出力次元: デフォルト3072次元からスケールダウン可能。Googleは最高品質のため3072, 1536, 768を推奨。

Gemini Embedding 2の使い方

Gemini Embedding 2は、Gemini APIおよびVertex AI経由でpublic preview提供中です。開始するには、Google提供のインタラクティブなGemini APIおよびVertex AI Colab notebooksを使用し、入力に対して埋め込みを生成してください。

クイック実験には、Google提供の軽量multimodal semantic searchデモで、検索タスクにおける埋め込みの動作をテストできます。

ユースケース

  • マルチモーダルセマンティック検索: ユーザーがクエリモダリティを混在させた場合(例: テキストで画像、音声、ドキュメントを含むインデックスを検索)に、関連アイテムを取得。
  • メディア横断RAG(Retrieval-Augmented Generation): 埋め込みで異種ソース(ドキュメント + メディア)からコンテキストを取得し、下流の生成ワークフローに供給。
  • 混合コンテンツのセンチメント分析: メディアを埋め込み、テキストと画像などのモダリティを含む分類・クラスタリングパイプラインをサポート。
  • 異種データセットのデータクラスタリング: メディアタイプ横断で統一表現を作成し、異なるフォーマットからの関連アイテムをグループ化。
  • アナリティクス向けドキュメント + メディア理解: 最大6ページのPDFを埋め込み、他のモダリティと1つの埋め込みパイプラインで組み合わせ、下流の検索・分類をサポート。

FAQ

Gemini Embedding 2はテキスト専用ですか?

いいえ。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングする完全マルチモーダル埋め込みモデルとして設計されています。

公開プレビューでサポートされるプラットフォームは?

Googleによると、Gemini Embedding 2はGemini APIおよびVertex AI経由で公開プレビュー提供中です。

モデルがサポートする入力サイズは?

ページに記載のモダリティ制限: テキスト8192 tokens、リクエストあたり最大6 images、動画最大120 seconds(MP4/MOV)、PDF最大6 pages。音声は転写なしでネイティブ摂取。

複数のモダリティを同時に送信できますか?

はい。モデルはinterleaved inputをネイティブ理解するため、単一リクエストで複数モダリティ(例: 画像 + テキスト)を送信可能。

埋め込み次元を変更できますか?

はい。Gemini Embedding 2はMatryoshka Representation Learning (MRL)を使用し、デフォルト3072次元からスケールダウン可能。Googleは最高品質のため3072, 1536, 768を推奨。

代替案

  • テキストのみの埋め込みモデル: アプリケーションがテキストのみを使用する場合、テキストのみの埋め込みモデルの方がシンプルですが、画像・動画・音声・ドキュメントを同じ空間にネイティブに埋め込みません。
  • モダリティごとの別々の埋め込み: 一部のワークフローは各モダリティごとに異なる埋め込みモデルを使用し、検索時に結果を結合しますが、単一の統一マルチモーダル埋め込み空間より複雑になることがあります。
  • その他のマルチモーダル埋め込みアプローチ: 代替ソリューションも複数メディアタイプの埋め込みを生成するものがありますが、Gemini Embedding 2は特に単一の埋め込み空間とインターリーブされたマルチモーダルリクエストを重視しています。
  • 埋め込みプロバイダを使用したインデックス・検索パイプライン: すでに埋め込みベースのベクター検索環境がある場合、マルチモーダル埋め込みプロバイダ/モデルへの切り替えを検討できます。主な違いは、モデルが完全にマルチモーダルな統一埋め込みをサポートするかどうかです。
Gemini Embedding 2 | UStack