Gemini Embedding 2

Gemini Embedding 2 是什麼？

Gemini Embedding 2 是 Google 首款基於 Gemini 架構的完全多模態嵌入模型。它將文字、影像、影片、音訊與文件映射到單一嵌入空間，實現跨多種媒體類型的檢索與分類工作流程。

此模型設計支援超過 100 種語言的語義處理，並可透過為不同輸入媒體產生單一向量表示，簡化多模態管線。

完全多模態輸入涵蓋（文字、影像、影片、音訊、文件）：為多種媒體類型產生嵌入，讓應用程式能搜尋與分類混合內容資料。
單一統一嵌入空間：將文字、影像、影片、音訊與文件嵌入相同空間，支援多模態檢索與分析。
單一請求中的交錯多模態理解：可同時接受多種模態（例如影像 + 文字），捕捉不同媒體間的關係。
高容量模態限制：支援最多 8192 個輸入 token（文字）、每請求最多 6 張影像（PNG/JPEG）、最多 120 秒影片（MP4/MOV），以及無需中間轉錄的原生音訊嵌入。
來自 PDF 的文件嵌入：直接嵌入最多 6 頁 PDF，無需先轉換成其他格式。
透過 Matryoshka Representation Learning (MRL) 的彈性嵌入輸出維度：支援從預設 3072 維度向下縮減；Google 建議使用 3072、1536 或 768 以獲得最佳品質。

Gemini Embedding 2 透過 Gemini API 與 Vertex AI 提供 公開預覽。開始使用時，可利用 Google 提供的互動式 Gemini API 與 Vertex AI Colab 筆記本，為您的輸入產生嵌入。

若要快速實驗，Google 也提供輕量級 多模態語義搜尋示範，讓您測試嵌入在檢索任務中的運作方式。

不是。它設計為完全多模態嵌入模型，將文字、影像、影片、音訊與文件映射到單一嵌入空間。

Google 表示 Gemini Embedding 2 透過 Gemini API 與 Vertex AI 提供公開預覽。

頁面列出模態限制，包括文字 8192 token、每請求最多 6 張影像、影片最多 120 秒（MP4/MOV），以及 PDF 最多 6 頁。音訊可原生攝取用於嵌入。

可以。模型原生支援 交錯輸入，因此您可在單一請求中傳送多種模態（例如影像 + 文字）。

可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 從預設 3072 維度向下縮減，Google 建議使用 3072、1536 和 768 以獲得最佳品質。