Gemini Embedding 2 是什麼?
Gemini Embedding 2 是 Google 首款基於 Gemini 架構的完全多模態嵌入模型。它將文字、影像、影片、音訊與文件映射到單一嵌入空間,實現跨多種媒體類型的檢索與分類工作流程。
此模型設計支援超過 100 種語言的語義處理,並可透過為不同輸入媒體產生單一向量表示,簡化多模態管線。
主要功能
- 完全多模態輸入涵蓋(文字、影像、影片、音訊、文件):為多種媒體類型產生嵌入,讓應用程式能搜尋與分類混合內容資料。
- 單一統一嵌入空間:將文字、影像、影片、音訊與文件嵌入相同空間,支援多模態檢索與分析。
- 單一請求中的交錯多模態理解:可同時接受多種模態(例如影像 + 文字),捕捉不同媒體間的關係。
- 高容量模態限制:支援最多 8192 個輸入 token(文字)、每請求最多 6 張影像(PNG/JPEG)、最多 120 秒影片(MP4/MOV),以及無需中間轉錄的原生音訊嵌入。
- 來自 PDF 的文件嵌入:直接嵌入最多 6 頁 PDF,無需先轉換成其他格式。
- 透過 Matryoshka Representation Learning (MRL) 的彈性嵌入輸出維度:支援從預設 3072 維度向下縮減;Google 建議使用 3072、1536 或 768 以獲得最佳品質。
如何使用 Gemini Embedding 2
Gemini Embedding 2 透過 Gemini API 與 Vertex AI 提供 公開預覽。開始使用時,可利用 Google 提供的互動式 Gemini API 與 Vertex AI Colab 筆記本,為您的輸入產生嵌入。
若要快速實驗,Google 也提供輕量級 多模態語義搜尋示範,讓您測試嵌入在檢索任務中的運作方式。
使用案例
- 多模態語義搜尋:當使用者混合查詢模態時檢索相關項目(例如以文字搜尋包含影像、音訊或文件的索引)。
- 跨媒體的檢索增強生成 (RAG):使用嵌入從異質來源(文件加媒體)擷取脈絡,並將檢索內容輸入下游生成工作流程。
- 混合內容的情感分析:嵌入媒體以支援分類或叢集管線,其中輸入可能包含文字與影像或其他模態。
- 異質資料集的資料叢集:跨媒體類型建立統一表示,即使來自不同格式也能群組相關項目。
- 文件 + 媒體理解用於分析:嵌入最多 6 頁 PDF,並與其他模態結合於單一嵌入管線,支援下游搜尋與分類。
常見問題
Gemini Embedding 2 只適用於文字嗎?
不是。它設計為完全多模態嵌入模型,將文字、影像、影片、音訊與文件映射到單一嵌入空間。
公開預覽支援哪些平台?
Google 表示 Gemini Embedding 2 透過 Gemini API 與 Vertex AI 提供公開預覽。
模型支援哪些輸入大小?
頁面列出模態限制,包括文字 8192 token、每請求最多 6 張影像、影片最多 120 秒(MP4/MOV),以及 PDF 最多 6 頁。音訊可原生攝取用於嵌入。
可以同時傳送多種模態嗎?
可以。模型原生支援 交錯輸入,因此您可在單一請求中傳送多種模態(例如影像 + 文字)。
可以變更嵌入維度嗎?
可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 從預設 3072 維度向下縮減,Google 建議使用 3072、1536 和 768 以獲得最佳品質。
替代方案
- 僅文字嵌入模型:如果您的應用僅使用文字,僅文字嵌入模型會更簡單;但無法原生將影像、影片、音訊或文件嵌入相同空間。
- 各模態獨立嵌入:某些工作流程為每個模態使用不同嵌入模型,並在檢索時合併結果;這比單一統一多模態嵌入空間更複雜。
- 其他多模態嵌入方法:替代方案類型也可能產生多媒體類型的嵌入,但 Gemini Embedding 2 特別強調單一嵌入空間與交錯多模態請求。
- 使用嵌入提供者的索引與檢索管線:如果您已有基於嵌入的向量搜尋設定,可考慮替換為多模態嵌入提供者/模型;關鍵差異在於模型是否支援完全多模態統一嵌入。
替代品
BookAI.chat
BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。
skills-janitor
skills-janitor 可審核並追蹤 Claude Code 技能用量,與 9 個聚焦指令做比較,幫你找重複與缺失資訊,無需依賴。
Struere
Struere 是 AI 原生的營運系統,將試算表流程升級為結構化軟體:儀表板、告警與自動化,集中管理作業資訊與流程。
garden-md
使用 garden-md 將會議逐字稿整理成結構化、可連結的公司 wiki;本機 Markdown 與 HTML 瀏覽視圖,並可從支援來源同步。
Falconer
Falconer 是自動更新的知識平台,讓高速度團隊在同一處撰寫、分享並搜尋可靠的內部文件與程式碼脈絡。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。