UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2 da Google mapeia texto, imagens, vídeo, áudio e documentos em um espaço único para buscas e classificação multimodais. Preview público via Gemini API e Vertex AI.

Gemini Embedding 2

O que é o Gemini Embedding 2?

O Gemini Embedding 2 é o primeiro modelo de embedding totalmente multimodal do Google, baseado na arquitetura Gemini. Ele mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding, permitindo fluxos de recuperação e classificação em múltiplos tipos de mídia.

O modelo foi projetado para lidar com semântica em mais de 100 idiomas e pode simplificar pipelines multimodais ao produzir um único tipo de representação vetorial para diferentes tipos de entrada de mídia.

Principais Recursos

  • Cobertura total de entrada multimodal (texto, imagens, vídeo, áudio, documentos): Produz embeddings para múltiplos tipos de mídia, permitindo que aplicativos busquem e classifiquem dados de conteúdo misto.
  • Espaço de embedding único e unificado: Texto, imagens, vídeo, áudio e documentos são incorporados no mesmo espaço para suportar recuperação e análise multimodal.
  • Compreensão multimodal entrelaçada em uma única solicitação: Aceita múltiplas modalidades juntas (por exemplo, imagem + texto) para capturar relações entre diferentes mídias.
  • Limites de alta capacidade por modalidade: Suporta até 8192 tokens de entrada para texto, até 6 imagens por solicitação (PNG/JPEG), até 120 segundos de vídeo (MP4/MOV) e embedding de áudio nativo sem transcrição intermediária.
  • Embeddings de documentos de PDFs: Incorpora diretamente PDFs de até 6 páginas em vez de converter o conteúdo para outro formato primeiro.
  • Dimensões de saída de embedding flexíveis via Matryoshka Representation Learning (MRL): Suporta redução a partir do padrão de 3072 dimensões; o Google recomenda 3072, 1536 ou 768 para maior qualidade.

Como Usar o Gemini Embedding 2

O Gemini Embedding 2 está disponível em preview público por meio do Gemini API e Vertex AI. Para começar, use os notebooks interativos do Gemini API e Vertex AI Colab fornecidos pelo Google e gere embeddings para suas entradas.

Para experimentação rápida, o Google também oferece uma demo leve de busca semântica multimodal onde você pode testar como os embeddings funcionam para tarefas de recuperação.

Casos de Uso

  • Busca semântica multimodal: Recupere itens relevantes quando usuários misturam modalidades de consulta (por exemplo, busca com texto em um índice que contém imagens, áudio ou documentos).
  • Geração Aumentada por Recuperação (RAG) em mídias variadas: Use embeddings para buscar contexto de fontes heterogêneas (documentos mais mídias) e alimentar o conteúdo recuperado em fluxos de geração downstream.
  • Análise de sentimento em conteúdo misto: Incorpore mídias para suportar pipelines de classificação ou agrupamento onde a entrada pode incluir texto com imagens ou outras modalidades.
  • Agrupamento de dados para conjuntos heterogêneos: Crie uma representação unificada em tipos de mídia para agrupar itens relacionados mesmo de formatos diferentes.
  • Compreensão de documentos + mídias para análises: Incorpore PDFs (até 6 páginas) e combine com outras modalidades em um pipeline de embedding para suportar busca e classificação downstream.

FAQ

O Gemini Embedding 2 é só para texto?

Não. Ele foi projetado como um modelo de embedding totalmente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding.

Quais plataformas são suportadas para o preview público?

O Google afirma que o Gemini Embedding 2 está disponível em preview público via Gemini API e Vertex AI.

Quais tamanhos de entrada o modelo suporta?

A página lista limites por modalidade, incluindo 8192 tokens para texto, até 6 imagens por solicitação, até 120 segundos de vídeo (MP4/MOV) e até 6 páginas para PDFs. Áudio é ingerido nativamente para embedding.

Posso enviar múltiplas modalidades juntas?

Sim. O modelo entende nativamente entrada entrelaçada, então você pode passar múltiplas modalidades (por exemplo, imagem + texto) em uma única solicitação.

A dimensionalidade do embedding pode ser alterada?

Sim. O Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) para reduzir a partir das 3072 dimensões padrão, com o Google recomendando 3072, 1536 e 768 para maior qualidade.

Alternativas

  • Modelos de embedding apenas de texto: Se o seu aplicativo usa apenas texto, um modelo de embedding apenas de texto pode ser mais simples; no entanto, ele não incorpora nativamente imagens, vídeo, áudio ou documentos no mesmo espaço.
  • Embeddings separados por modalidade: Alguns fluxos de trabalho usam modelos de embedding diferentes para cada modalidade e depois combinam os resultados no momento da recuperação; isso pode ser mais complexo que um único espaço de embedding multimodal unificado.
  • Outras abordagens de embedding multimodal: Tipos alternativos de soluções também podem produzir embeddings para múltiplos tipos de mídia, mas o Gemini Embedding 2 enfatiza especificamente um único espaço de embedding e solicitações multimodais intercaladas.
  • Pipelines de indexação e recuperação usando provedores de embedding: Se você já tem uma configuração de busca vetorial baseada em embedding, pode considerar trocar por um provedor/modelo de embedding multimodal; a diferença principal é se o modelo suporta embeddings unificados totalmente multimodais.
Gemini Embedding 2 | UStack