Gemini Embedding 2

O que é o Gemini Embedding 2?

O Gemini Embedding 2 é o primeiro modelo de embedding totalmente multimodal do Google, baseado na arquitetura Gemini. Ele mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding, permitindo fluxos de recuperação e classificação em múltiplos tipos de mídia.

O modelo foi projetado para lidar com semântica em mais de 100 idiomas e pode simplificar pipelines multimodais ao produzir um único tipo de representação vetorial para diferentes tipos de entrada de mídia.

Principais Recursos

Cobertura total de entrada multimodal (texto, imagens, vídeo, áudio, documentos): Produz embeddings para múltiplos tipos de mídia, permitindo que aplicativos busquem e classifiquem dados de conteúdo misto.
Espaço de embedding único e unificado: Texto, imagens, vídeo, áudio e documentos são incorporados no mesmo espaço para suportar recuperação e análise multimodal.
Compreensão multimodal entrelaçada em uma única solicitação: Aceita múltiplas modalidades juntas (por exemplo, imagem + texto) para capturar relações entre diferentes mídias.
Limites de alta capacidade por modalidade: Suporta até 8192 tokens de entrada para texto, até 6 imagens por solicitação (PNG/JPEG), até 120 segundos de vídeo (MP4/MOV) e embedding de áudio nativo sem transcrição intermediária.
Embeddings de documentos de PDFs: Incorpora diretamente PDFs de até 6 páginas em vez de converter o conteúdo para outro formato primeiro.
Dimensões de saída de embedding flexíveis via Matryoshka Representation Learning (MRL): Suporta redução a partir do padrão de 3072 dimensões; o Google recomenda 3072, 1536 ou 768 para maior qualidade.

Como Usar o Gemini Embedding 2

O Gemini Embedding 2 está disponível em preview público por meio do Gemini API e Vertex AI. Para começar, use os notebooks interativos do Gemini API e Vertex AI Colab fornecidos pelo Google e gere embeddings para suas entradas.

Para experimentação rápida, o Google também oferece uma demo leve de busca semântica multimodal onde você pode testar como os embeddings funcionam para tarefas de recuperação.

Casos de Uso

Busca semântica multimodal: Recupere itens relevantes quando usuários misturam modalidades de consulta (por exemplo, busca com texto em um índice que contém imagens, áudio ou documentos).
Geração Aumentada por Recuperação (RAG) em mídias variadas: Use embeddings para buscar contexto de fontes heterogêneas (documentos mais mídias) e alimentar o conteúdo recuperado em fluxos de geração downstream.
Análise de sentimento em conteúdo misto: Incorpore mídias para suportar pipelines de classificação ou agrupamento onde a entrada pode incluir texto com imagens ou outras modalidades.
Agrupamento de dados para conjuntos heterogêneos: Crie uma representação unificada em tipos de mídia para agrupar itens relacionados mesmo de formatos diferentes.
Compreensão de documentos + mídias para análises: Incorpore PDFs (até 6 páginas) e combine com outras modalidades em um pipeline de embedding para suportar busca e classificação downstream.

FAQ

O Gemini Embedding 2 é só para texto?

Não. Ele foi projetado como um modelo de embedding totalmente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding.

Quais plataformas são suportadas para o preview público?

O Google afirma que o Gemini Embedding 2 está disponível em preview público via Gemini API e Vertex AI.

Quais tamanhos de entrada o modelo suporta?

A página lista limites por modalidade, incluindo 8192 tokens para texto, até 6 imagens por solicitação, até 120 segundos de vídeo (MP4/MOV) e até 6 páginas para PDFs. Áudio é ingerido nativamente para embedding.

Posso enviar múltiplas modalidades juntas?

Sim. O modelo entende nativamente entrada entrelaçada, então você pode passar múltiplas modalidades (por exemplo, imagem + texto) em uma única solicitação.

A dimensionalidade do embedding pode ser alterada?

Sim. O Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) para reduzir a partir das 3072 dimensões padrão, com o Google recomendando 3072, 1536 e 768 para maior qualidade.

Alternativas

Modelos de embedding apenas de texto: Se o seu aplicativo usa apenas texto, um modelo de embedding apenas de texto pode ser mais simples; no entanto, ele não incorpora nativamente imagens, vídeo, áudio ou documentos no mesmo espaço.
Embeddings separados por modalidade: Alguns fluxos de trabalho usam modelos de embedding diferentes para cada modalidade e depois combinam os resultados no momento da recuperação; isso pode ser mais complexo que um único espaço de embedding multimodal unificado.
Outras abordagens de embedding multimodal: Tipos alternativos de soluções também podem produzir embeddings para múltiplos tipos de mídia, mas o Gemini Embedding 2 enfatiza especificamente um único espaço de embedding e solicitações multimodais intercaladas.
Pipelines de indexação e recuperação usando provedores de embedding: Se você já tem uma configuração de busca vetorial baseada em embedding, pode considerar trocar por um provedor/modelo de embedding multimodal; a diferença principal é se o modelo suporta embeddings unificados totalmente multimodais.

Gemini Embedding 2

O que é o Gemini Embedding 2?

Principais Recursos

Como Usar o Gemini Embedding 2

Casos de Uso

FAQ

O Gemini Embedding 2 é só para texto?

Quais plataformas são suportadas para o preview público?

Quais tamanhos de entrada o modelo suporta?

Posso enviar múltiplas modalidades juntas?

A dimensionalidade do embedding pode ser alterada?

Alternativas

Alternativas

BookAI.chat

skills-janitor

Struere

garden-md

Falconer

AakarDev AI