UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2 將文字、影像、影片、音訊與文件映射到單一向量空間,支援多模態檢索與分類;Gemini API 與 Vertex AI 公開預覽中。

Gemini Embedding 2

Gemini Embedding 2 是什麼?

Gemini Embedding 2 是 Google 首款基於 Gemini 架構的完全多模態嵌入模型。它將文字、影像、影片、音訊與文件映射到單一嵌入空間,實現跨多種媒體類型的檢索與分類工作流程。

此模型設計支援超過 100 種語言的語義處理,並可透過為不同輸入媒體產生單一向量表示,簡化多模態管線。

主要功能

  • 完全多模態輸入涵蓋(文字、影像、影片、音訊、文件):為多種媒體類型產生嵌入,讓應用程式能搜尋與分類混合內容資料。
  • 單一統一嵌入空間:將文字、影像、影片、音訊與文件嵌入相同空間,支援多模態檢索與分析。
  • 單一請求中的交錯多模態理解:可同時接受多種模態(例如影像 + 文字),捕捉不同媒體間的關係。
  • 高容量模態限制:支援最多 8192 個輸入 token(文字)、每請求最多 6 張影像(PNG/JPEG)、最多 120 秒影片(MP4/MOV),以及無需中間轉錄的原生音訊嵌入。
  • 來自 PDF 的文件嵌入:直接嵌入最多 6 頁 PDF,無需先轉換成其他格式。
  • 透過 Matryoshka Representation Learning (MRL) 的彈性嵌入輸出維度:支援從預設 3072 維度向下縮減;Google 建議使用 3072、1536 或 768 以獲得最佳品質。

如何使用 Gemini Embedding 2

Gemini Embedding 2 透過 Gemini APIVertex AI 提供 公開預覽。開始使用時,可利用 Google 提供的互動式 Gemini APIVertex AI Colab 筆記本,為您的輸入產生嵌入。

若要快速實驗,Google 也提供輕量級 多模態語義搜尋示範,讓您測試嵌入在檢索任務中的運作方式。

使用案例

  • 多模態語義搜尋:當使用者混合查詢模態時檢索相關項目(例如以文字搜尋包含影像、音訊或文件的索引)。
  • 跨媒體的檢索增強生成 (RAG):使用嵌入從異質來源(文件加媒體)擷取脈絡,並將檢索內容輸入下游生成工作流程。
  • 混合內容的情感分析:嵌入媒體以支援分類或叢集管線,其中輸入可能包含文字與影像或其他模態。
  • 異質資料集的資料叢集:跨媒體類型建立統一表示,即使來自不同格式也能群組相關項目。
  • 文件 + 媒體理解用於分析:嵌入最多 6 頁 PDF,並與其他模態結合於單一嵌入管線,支援下游搜尋與分類。

常見問題

Gemini Embedding 2 只適用於文字嗎?

不是。它設計為完全多模態嵌入模型,將文字、影像、影片、音訊與文件映射到單一嵌入空間。

公開預覽支援哪些平台?

Google 表示 Gemini Embedding 2 透過 Gemini APIVertex AI 提供公開預覽。

模型支援哪些輸入大小?

頁面列出模態限制,包括文字 8192 token、每請求最多 6 張影像、影片最多 120 秒(MP4/MOV),以及 PDF 最多 6 頁。音訊可原生攝取用於嵌入。

可以同時傳送多種模態嗎?

可以。模型原生支援 交錯輸入,因此您可在單一請求中傳送多種模態(例如影像 + 文字)。

可以變更嵌入維度嗎?

可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 從預設 3072 維度向下縮減,Google 建議使用 3072、1536 和 768 以獲得最佳品質。

替代方案

  • 僅文字嵌入模型:如果您的應用僅使用文字,僅文字嵌入模型會更簡單;但無法原生將影像、影片、音訊或文件嵌入相同空間。
  • 各模態獨立嵌入:某些工作流程為每個模態使用不同嵌入模型,並在檢索時合併結果;這比單一統一多模態嵌入空間更複雜。
  • 其他多模態嵌入方法:替代方案類型也可能產生多媒體類型的嵌入,但 Gemini Embedding 2 特別強調單一嵌入空間與交錯多模態請求。
  • 使用嵌入提供者的索引與檢索管線:如果您已有基於嵌入的向量搜尋設定,可考慮替換為多模態嵌入提供者/模型;關鍵差異在於模型是否支援完全多模態統一嵌入。
Gemini Embedding 2 | UStack