Gemini Embedding 2

¿Qué es Gemini Embedding 2?

Gemini Embedding 2 es el primer modelo de embeddings completamente multimodal de Google, basado en la arquitectura Gemini. Mapea texto, imágenes, video, audio y documentos a un único espacio de embeddings, lo que permite flujos de trabajo de búsqueda y clasificación en múltiples tipos de medios.

El modelo está diseñado para manejar semántica en más de 100 idiomas y puede simplificar pipelines multimodales al producir un solo tipo de representación vectorial para diferentes tipos de medios de entrada.

Características principales

Cobertura completa de entrada multimodal (texto, imágenes, video, audio, documentos): Produce embeddings para múltiples tipos de medios para que las aplicaciones puedan buscar y clasificar datos de contenido mixto.
Espacio de embeddings único y unificado: Texto, imágenes, video, audio y documentos se incrustan en el mismo espacio para soportar búsqueda y análisis multimodal.
Comprensión multimodal entrelazada en una sola solicitud: Acepta múltiples modalidades juntas (por ejemplo, imagen + texto) para capturar relaciones entre diferentes medios.
Límites de capacidad alta por modalidad: Soporta hasta 8192 tokens de entrada para texto, hasta 6 imágenes por solicitud (PNG/JPEG), hasta 120 segundos de video (MP4/MOV) y embedding de audio nativo sin transcripción intermedia.
Embeddings de documentos desde PDFs: Incrusta directamente PDFs de hasta 6 páginas en lugar de convertir el contenido a otro formato primero.
Dimensiones de salida de embedding flexibles mediante Matryoshka Representation Learning (MRL): Permite reducir desde las 3072 dimensiones predeterminadas; Google recomienda usar 3072, 1536 o 768 para la máxima calidad.

Cómo usar Gemini Embedding 2

Gemini Embedding 2 está disponible en vista previa pública a través de Gemini API y Vertex AI. Para empezar, usa los cuadernos interactivos de Gemini API y Vertex AI Colab proporcionados por Google y genera embeddings para tus entradas.

Para experimentación rápida, Google también ofrece una demo ligera de búsqueda semántica multimodal donde puedes probar cómo funcionan los embeddings en tareas de recuperación.

Casos de uso

Búsqueda semántica multimodal: Recupera elementos relevantes cuando los usuarios mezclan modalidades de consulta (por ejemplo, buscar con texto contra un índice que contiene imágenes, audio o documentos).
Generación aumentada por recuperación (RAG) en múltiples medios: Usa embeddings para obtener contexto de fuentes heterogéneas (documentos más medios) y alimentar el contenido recuperado en flujos de generación posteriores.
Análisis de sentimientos en contenido mixto: Incrusta medios para soportar pipelines de clasificación o agrupación donde la entrada puede incluir texto junto con imágenes u otras modalidades.
Agrupación de datos para conjuntos de datos heterogéneos: Crea una representación unificada en tipos de medios para agrupar elementos relacionados incluso si provienen de formatos diferentes.
Comprensión de documentos + medios para análisis: Incrusta PDFs (hasta 6 páginas) y combínalos con otras modalidades en un solo pipeline de embedding para soportar búsqueda y clasificación posteriores.

Preguntas frecuentes

¿Es Gemini Embedding 2 solo para texto?

No. Está diseñado como un modelo de embeddings completamente multimodal que mapea texto, imágenes, video, audio y documentos a un único espacio de embeddings.

¿Qué plataformas son compatibles con la vista previa pública?

Google indica que Gemini Embedding 2 está disponible en vista previa pública a través de Gemini API y Vertex AI.

¿Qué tamaños de entrada soporta el modelo?

La página enumera límites por modalidad, incluyendo 8192 tokens para texto, hasta 6 imágenes por solicitud, hasta 120 segundos de video (MP4/MOV) y hasta 6 páginas para PDFs. El audio se ingiere de forma nativa para embedding.

¿Puedo enviar múltiples modalidades juntas?

Sí. El modelo entiende de forma nativa la entrada entrelazada, por lo que puedes pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud.

¿Se puede cambiar la dimensionalidad del embedding?

Sí. Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) para reducir desde las 3072 dimensiones predeterminadas, con Google recomendando 3072, 1536 y 768 para la máxima calidad.

Alternativas

Modelos de embeddings solo de texto: Si tu aplicación usa solo texto, un modelo de embeddings solo de texto puede ser más simple; sin embargo, no incorpora de forma nativa imágenes, video, audio o documentos en el mismo espacio.
Embeddings separados por modalidad: Algunos flujos de trabajo usan modelos de embeddings diferentes para cada modalidad y luego combinan resultados en el momento de recuperación; esto puede ser más complejo que un único espacio de embeddings multimodal unificado.
Otros enfoques de embeddings multimodales: Otros tipos de soluciones también pueden generar embeddings para múltiples tipos de medios, pero Gemini Embedding 2 enfatiza específicamente un único espacio de embeddings y solicitudes multimodales entrelazadas.
Pipelines de indexación y recuperación con proveedores de embeddings: Si ya tienes una configuración de búsqueda vectorial basada en embeddings, puedes considerar cambiar a un proveedor/modelo de embeddings multimodal; la diferencia clave es si el modelo soporta embeddings unificados completamente multimodales.

Gemini Embedding 2

¿Qué es Gemini Embedding 2?

Características principales

Cómo usar Gemini Embedding 2

Casos de uso

Preguntas frecuentes

¿Es Gemini Embedding 2 solo para texto?

¿Qué plataformas son compatibles con la vista previa pública?

¿Qué tamaños de entrada soporta el modelo?

¿Puedo enviar múltiples modalidades juntas?

¿Se puede cambiar la dimensionalidad del embedding?

Alternativas

Alternativas

BookAI.chat

skills-janitor

Struere

garden-md

Falconer

AakarDev AI