UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2 将文本、图像、视频、音频和文档映射到统一向量空间,用于多模态检索与分类;现通过 Gemini API 和 Vertex AI 公开预览。

Gemini Embedding 2

Gemini Embedding 2 是什么?

Gemini Embedding 2 是基于 Gemini 架构的 Google 首个完全多模态嵌入模型。它将文本、图像、视频、音频和文档映射到统一的嵌入空间,支持跨多种媒体类型的检索和分类工作流。

该模型设计用于处理超过 100 种语言的语义,并通过为不同输入媒体生成单一类型的向量表示来简化多模态管道。

主要特性

  • 完全多模态输入覆盖(文本、图像、视频、音频、文档):为多种媒体类型生成嵌入,使应用能够搜索和分类混合内容数据。
  • 单一统一嵌入空间:文本、图像、视频、音频和文档嵌入到同一空间,支持多模态检索和分析。
  • 单次请求中的交错多模态理解:同时接受多种模态(例如,图像 + 文本),以捕捉不同媒体间的关系。
  • 高容量模态限制:文本支持最多 8192 输入 token,每请求最多 6 张图像(PNG/JPEG),视频最多 120 秒(MP4/MOV),以及无需中间转录的原生音频嵌入。
  • PDF 文档嵌入:直接嵌入最多 6 页PDF,而非先转换为其他格式。
  • 通过 Matryoshka Representation Learning (MRL) 灵活调整嵌入输出维度:支持从默认 3072 维缩减;Google 推荐使用 3072、1536 或 768 以获得最高质量。

如何使用 Gemini Embedding 2

Gemini Embedding 2 通过 Gemini APIVertex AI公开预览 形式提供。要开始使用,请利用 Google 提供的交互式 Gemini APIVertex AI Colab 笔记本 生成输入的嵌入。

用于快速实验,Google 还提供轻量级 多模态语义搜索 演示,您可以在其中测试嵌入在检索式任务中的效果。

使用场景

  • 多模态语义搜索:当用户混合查询模态时检索相关项目(例如,用文本搜索包含图像、音频或文档的索引)。
  • 跨媒体检索增强生成 (RAG):使用嵌入从异构来源(文档 + 媒体)获取上下文,并将检索内容输入下游生成工作流。
  • 混合内容情感分析:嵌入媒体以支持分类或聚类管道,其中输入可能包括文本与图像或其他模态。
  • 异构数据集聚类:为多种媒体类型创建统一表示,即使来自不同格式也能对相关项目进行分组。
  • 文档 + 媒体理解用于分析:嵌入最多 6 页的 PDF,并与其他模态结合于单一嵌入管道,支持下游搜索和分类。

常见问题

Gemini Embedding 2 只用于文本吗?

不是。它设计为完全多模态嵌入模型,将文本、图像、视频、音频和文档映射到单一嵌入空间。

公开预览支持哪些平台?

Google 表示 Gemini Embedding 2 通过 Gemini APIVertex AI 提供公开预览。

模型支持哪些输入大小?

页面列出了模态限制,包括文本 8192 token、每请求最多 6 张图像、视频最多 120 秒(MP4/MOV),以及 PDF 最多 6 页。音频原生摄入用于嵌入。

可以同时发送多种模态吗?

可以。该模型原生支持 交错输入,因此您可以在单次请求中传递多种模态(例如,图像 + 文本)。

可以更改嵌入维度吗?

可以。Gemini Embedding 2 使用 Matryoshka Representation Learning (MRL) 从默认 3072 维缩减,Google 推荐 3072、1536 和 768 以获得最高质量。

备选方案

  • 纯文本嵌入模型:如果您的应用仅使用文本,纯文本嵌入模型更简单;但它无法将图像、视频、音频或文档原生嵌入同一空间。
  • 按模态使用独立嵌入:某些工作流为每个模态使用不同嵌入模型,并在检索时组合结果;这比单一统一的多模态嵌入空间更复杂。
  • 其他多模态嵌入方法:其他解决方案类型也可能为多种媒体类型生成嵌入,但 Gemini Embedding 2 特别强调单一嵌入空间和交错多模态请求。
  • 基于嵌入提供商的索引与检索管道:如果您已有基于嵌入的向量搜索设置,可考虑更换为多模态嵌入提供商/模型;关键区别在于模型是否支持完全多模态统一嵌入。
Gemini Embedding 2 | UStack