Gemini Embedding 2
Gemini Embedding 2 mapea texto, imágenes, video, audio y documentos a un único espacio de embeddings para búsqueda y clasificación multimodal. Vista previa pública con Gemini API y Vertex AI.
¿Qué es Gemini Embedding 2?
Gemini Embedding 2 es el primer modelo de embeddings completamente multimodal de Google, basado en la arquitectura Gemini. Mapea texto, imágenes, video, audio y documentos a un único espacio de embeddings, lo que permite flujos de trabajo de búsqueda y clasificación en múltiples tipos de medios.
El modelo está diseñado para manejar semántica en más de 100 idiomas y puede simplificar pipelines multimodales al producir un solo tipo de representación vectorial para diferentes tipos de medios de entrada.
Características principales
- Cobertura completa de entrada multimodal (texto, imágenes, video, audio, documentos): Produce embeddings para múltiples tipos de medios para que las aplicaciones puedan buscar y clasificar datos de contenido mixto.
- Espacio de embeddings único y unificado: Texto, imágenes, video, audio y documentos se incrustan en el mismo espacio para soportar búsqueda y análisis multimodal.
- Comprensión multimodal entrelazada en una sola solicitud: Acepta múltiples modalidades juntas (por ejemplo, imagen + texto) para capturar relaciones entre diferentes medios.
- Límites de capacidad alta por modalidad: Soporta hasta 8192 tokens de entrada para texto, hasta 6 imágenes por solicitud (PNG/JPEG), hasta 120 segundos de video (MP4/MOV) y embedding de audio nativo sin transcripción intermedia.
- Embeddings de documentos desde PDFs: Incrusta directamente PDFs de hasta 6 páginas en lugar de convertir el contenido a otro formato primero.
- Dimensiones de salida de embedding flexibles mediante Matryoshka Representation Learning (MRL): Permite reducir desde las 3072 dimensiones predeterminadas; Google recomienda usar 3072, 1536 o 768 para la máxima calidad.
Cómo usar Gemini Embedding 2
Gemini Embedding 2 está disponible en vista previa pública a través de Gemini API y Vertex AI. Para empezar, usa los cuadernos interactivos de Gemini API y Vertex AI Colab proporcionados por Google y genera embeddings para tus entradas.
Para experimentación rápida, Google también ofrece una demo ligera de búsqueda semántica multimodal donde puedes probar cómo funcionan los embeddings en tareas de recuperación.
Casos de uso
- Búsqueda semántica multimodal: Recupera elementos relevantes cuando los usuarios mezclan modalidades de consulta (por ejemplo, buscar con texto contra un índice que contiene imágenes, audio o documentos).
- Generación aumentada por recuperación (RAG) en múltiples medios: Usa embeddings para obtener contexto de fuentes heterogéneas (documentos más medios) y alimentar el contenido recuperado en flujos de generación posteriores.
- Análisis de sentimientos en contenido mixto: Incrusta medios para soportar pipelines de clasificación o agrupación donde la entrada puede incluir texto junto con imágenes u otras modalidades.
- Agrupación de datos para conjuntos de datos heterogéneos: Crea una representación unificada en tipos de medios para agrupar elementos relacionados incluso si provienen de formatos diferentes.
- Comprensión de documentos + medios para análisis: Incrusta PDFs (hasta 6 páginas) y combínalos con otras modalidades en un solo pipeline de embedding para soportar búsqueda y clasificación posteriores.
Preguntas frecuentes
¿Es Gemini Embedding 2 solo para texto?
No. Está diseñado como un modelo de embeddings completamente multimodal que mapea texto, imágenes, video, audio y documentos a un único espacio de embeddings.
¿Qué plataformas son compatibles con la vista previa pública?
Google indica que Gemini Embedding 2 está disponible en vista previa pública a través de Gemini API y Vertex AI.
¿Qué tamaños de entrada soporta el modelo?
La página enumera límites por modalidad, incluyendo 8192 tokens para texto, hasta 6 imágenes por solicitud, hasta 120 segundos de video (MP4/MOV) y hasta 6 páginas para PDFs. El audio se ingiere de forma nativa para embedding.
¿Puedo enviar múltiples modalidades juntas?
Sí. El modelo entiende de forma nativa la entrada entrelazada, por lo que puedes pasar múltiples modalidades (por ejemplo, imagen + texto) en una sola solicitud.
¿Se puede cambiar la dimensionalidad del embedding?
Sí. Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) para reducir desde las 3072 dimensiones predeterminadas, con Google recomendando 3072, 1536 y 768 para la máxima calidad.
Alternativas
- Modelos de embeddings solo de texto: Si tu aplicación usa solo texto, un modelo de embeddings solo de texto puede ser más simple; sin embargo, no incorpora de forma nativa imágenes, video, audio o documentos en el mismo espacio.
- Embeddings separados por modalidad: Algunos flujos de trabajo usan modelos de embeddings diferentes para cada modalidad y luego combinan resultados en el momento de recuperación; esto puede ser más complejo que un único espacio de embeddings multimodal unificado.
- Otros enfoques de embeddings multimodales: Otros tipos de soluciones también pueden generar embeddings para múltiples tipos de medios, pero Gemini Embedding 2 enfatiza específicamente un único espacio de embeddings y solicitudes multimodales entrelazadas.
- Pipelines de indexación y recuperación con proveedores de embeddings: Si ya tienes una configuración de búsqueda vectorial basada en embeddings, puedes considerar cambiar a un proveedor/modelo de embeddings multimodal; la diferencia clave es si el modelo soporta embeddings unificados completamente multimodales.
Alternativas
BookAI.chat
BookAI te permite chatear con tus libros usando IA simplemente proporcionando el título y el autor.
skills-janitor
skills-janitor audita y registra el uso de tus habilidades de Claude Code, comparándolas con 9 acciones de slash y sin dependencias.
Struere
Struere es un sistema operativo nativo de IA que reemplaza los flujos en hojas de cálculo por software estructurado: paneles, alertas y automatizaciones.
garden-md
Convierte transcripciones de reuniones en un wiki de empresa estructurado y enlazado con archivos Markdown locales y vista HTML; sincroniza desde fuentes compatibles.
Falconer
Falconer es una plataforma de conocimiento autoactualizable para equipos ágiles: escribe, comparte y encuentra documentación interna y contexto de código en un solo lugar.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.