Gemini Embedding 2

Gemini Embedding 2 是什么？

Gemini Embedding 2 是基于 Gemini 架构的 Google 首个完全多模态嵌入模型。它将文本、图像、视频、音频和文档映射到统一的嵌入空间，支持跨多种媒体类型的检索和分类工作流。

该模型设计用于处理超过 100 种语言的语义，并通过为不同输入媒体生成单一类型的向量表示来简化多模态管道。

完全多模态输入覆盖（文本、图像、视频、音频、文档）：为多种媒体类型生成嵌入，使应用能够搜索和分类混合内容数据。
单一统一嵌入空间：文本、图像、视频、音频和文档嵌入到同一空间，支持多模态检索和分析。
单次请求中的交错多模态理解：同时接受多种模态（例如，图像 + 文本），以捕捉不同媒体间的关系。
高容量模态限制：文本支持最多 8192 输入 token，每请求最多 6 张图像（PNG/JPEG），视频最多 120 秒（MP4/MOV），以及无需中间转录的原生音频嵌入。
PDF 文档嵌入：直接嵌入最多 6 页 的 PDF，而非先转换为其他格式。
通过 Matryoshka Representation Learning (MRL) 灵活调整嵌入输出维度：支持从默认 3072 维缩减；Google 推荐使用 3072、1536 或 768 以获得最高质量。

Gemini Embedding 2 通过 Gemini API 和 Vertex AI 以 公开预览 形式提供。要开始使用，请利用 Google 提供的交互式 Gemini API 和 Vertex AI Colab 笔记本 生成输入的嵌入。

用于快速实验，Google 还提供轻量级 多模态语义搜索 演示，您可以在其中测试嵌入在检索式任务中的效果。

不是。它设计为完全多模态嵌入模型，将文本、图像、视频、音频和文档映射到单一嵌入空间。

Google 表示 Gemini Embedding 2 通过 Gemini API 和 Vertex AI 提供公开预览。

页面列出了模态限制，包括文本 8192 token、每请求最多 6 张图像、视频最多 120 秒（MP4/MOV），以及 PDF 最多 6 页。音频原生摄入用于嵌入。

可以。该模型原生支持 交错输入，因此您可以在单次请求中传递多种模态（例如，图像 + 文本）。

可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 从默认 3072 维缩减，Google 推荐 3072、1536 和 768 以获得最高质量。