Gemini Embedding 2 是什么?
Gemini Embedding 2 是基于 Gemini 架构的 Google 首个完全多模态嵌入模型。它将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持跨多种媒体类型的检索和分类工作流。
该模型设计用于处理超过 100 种语言的语义,并通过为不同输入媒体生成单一类型的向量表示来简化多模态管道。
主要特性
- 完全多模态输入覆盖(文本、图像、视频、音频、文档):为多种媒体类型生成嵌入,使应用能够搜索和分类混合内容数据。
- 单一统一嵌入空间:文本、图像、视频、音频和文档嵌入到同一空间,支持多模态检索和分析。
- 单次请求中的交错多模态理解:同时接受多种模态(例如,图像 + 文本),以捕捉不同媒体间的关系。
- 高容量模态限制:文本支持最多 8192 输入 token,每请求最多 6 张图像(PNG/JPEG),视频最多 120 秒(MP4/MOV),以及无需中间转录的原生音频嵌入。
- PDF 文档嵌入:直接嵌入最多 6 页 的 PDF,而非先转换为其他格式。
- 通过 Matryoshka Representation Learning (MRL) 灵活调整嵌入输出维度:支持从默认 3072 维缩减;Google 推荐使用 3072、1536 或 768 以获得最高质量。
如何使用 Gemini Embedding 2
Gemini Embedding 2 通过 Gemini API 和 Vertex AI 以 公开预览 形式提供。要开始使用,请利用 Google 提供的交互式 Gemini API 和 Vertex AI Colab 笔记本 生成输入的嵌入。
用于快速实验,Google 还提供轻量级 多模态语义搜索 演示,您可以在其中测试嵌入在检索式任务中的效果。
使用场景
- 多模态语义搜索:当用户混合查询模态时检索相关项目(例如,用文本搜索包含图像、音频或文档的索引)。
- 跨媒体检索增强生成 (RAG):使用嵌入从异构来源(文档 + 媒体)获取上下文,并将检索内容输入下游生成工作流。
- 混合内容情感分析:嵌入媒体以支持分类或聚类管道,其中输入可能包括文本与图像或其他模态。
- 异构数据集聚类:为多种媒体类型创建统一表示,即使来自不同格式也能对相关项目进行分组。
- 文档 + 媒体理解用于分析:嵌入最多 6 页的 PDF,并与其他模态结合于单一嵌入管道,支持下游搜索和分类。
常见问题
Gemini Embedding 2 只用于文本吗?
不是。它设计为完全多模态嵌入模型,将文本、图像、视频、音频和文档映射到单一嵌入空间。
公开预览支持哪些平台?
Google 表示 Gemini Embedding 2 通过 Gemini API 和 Vertex AI 提供公开预览。
模型支持哪些输入大小?
页面列出了模态限制,包括文本 8192 token、每请求最多 6 张图像、视频最多 120 秒(MP4/MOV),以及 PDF 最多 6 页。音频原生摄入用于嵌入。
可以同时发送多种模态吗?
可以。该模型原生支持 交错输入,因此您可以在单次请求中传递多种模态(例如,图像 + 文本)。
可以更改嵌入维度吗?
可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 从默认 3072 维缩减,Google 推荐 3072、1536 和 768 以获得最高质量。
备选方案
- 纯文本嵌入模型:如果您的应用仅使用文本,纯文本嵌入模型更简单;但它无法将图像、视频、音频或文档原生嵌入同一空间。
- 按模态使用独立嵌入:某些工作流为每个模态使用不同嵌入模型,并在检索时组合结果;这比单一统一的多模态嵌入空间更复杂。
- 其他多模态嵌入方法:其他解决方案类型也可能为多种媒体类型生成嵌入,但 Gemini Embedding 2 特别强调单一嵌入空间和交错多模态请求。
- 基于嵌入提供商的索引与检索管道:如果您已有基于嵌入的向量搜索设置,可考虑更换为多模态嵌入提供商/模型;关键区别在于模型是否支持完全多模态统一嵌入。
替代品
BookAI.chat
BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。
skills-janitor
skills-janitor 插件用于审计和跟踪 Claude Code 技能使用情况,并与九个聚焦的斜杠命令进行对比,零依赖。
Struere
Struere 是 AI 原生运营系统,用结构化软件替代表格流程,支持仪表盘、告警与自动化,集中管理运营数据与流程。
garden-md
garden-md 将会议转录内容整理成结构化、可互链的企业维基:基于本地 Markdown,并可用 HTML 浏览视图同步转录来源。
Falconer
Falconer 是自更新知识平台,帮高速度团队在一个地方编写、分享并搜索可靠内部文档与代码上下文。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。