Gemini Embedding 2
Gemini Embedding 2 ist Googles erstes vollständig multimodales Embedding-Modell: Text, Bilder, Video, Audio & Dokumente in einem Raum. Public Preview via Gemini API & Vertex AI.
Was ist Gemini Embedding 2?
Gemini Embedding 2 ist Googles erstes vollständig multimodales Embedding-Modell auf Basis der Gemini-Architektur. Es bildet Text, Bilder, Video, Audio und Dokumente in einem einzigen Embedding-Raum ab und ermöglicht Retrieval- und Klassifizierungsworkflows über mehrere Medientypen hinweg.
Das Modell ist für Semantik in mehr als 100 Sprachen ausgelegt und vereinfacht multimodale Pipelines, indem es eine einheitliche Vektordarstellung für verschiedene Eingabemediene generiert.
Wichtige Funktionen
- Vollständige multimodale Eingabeabdeckung (Text, Bilder, Video, Audio, Dokumente): Erzeugt Embeddings für mehrere Medientypen, damit Anwendungen gemischte Inhalte durchsuchen und klassifizieren können.
- Einheitlicher Embedding-Raum: Text, Bilder, Video, Audio und Dokumente werden in denselben Raum eingebettet, um multimodales Retrieval und Analysen zu unterstützen.
- Verstecktes multimodales Verständnis in einer Anfrage: Nimmt mehrere Modalitäten gleichzeitig auf (z. B. Bild + Text), um Beziehungen zwischen Medien zu erfassen.
- Hohe Kapazitätsgrenzen für Modalitäten: Unterstützt bis zu 8192 Input-Tokens für Text, bis zu 6 Bilder pro Anfrage (PNG/JPEG), bis zu 120 Sekunden Video (MP4/MOV) und nativ Audio-Embedding ohne Zwischentranskription.
- Dokument-Embeddings aus PDFs: Embeddet direkt PDFs bis zu 6 Seiten, statt Inhalte zuerst umzuwandeln.
- Flexible Embedding-Ausgabedimensionen via Matryoshka Representation Learning (MRL): Unterstützt Skalierung von den Standard-3072 Dimensionen herunter; Google empfiehlt 3072, 1536 oder 768 für höchste Qualität.
So verwenden Sie Gemini Embedding 2
Gemini Embedding 2 ist in der Public Preview über die Gemini API und Vertex AI verfügbar. Zum Einstieg nutzen Sie die interaktiven Gemini API- und Vertex AI Colab-Notebooks von Google, um Embeddings für Ihre Eingaben zu generieren.
Für schnelle Experimente bietet Google ein leichtgewichtiges multimodales Semantic-Search-Demo, in dem Sie testen können, wie die Embeddings für Retrieval-Aufgaben funktionieren.
Anwendungsfälle
- Multimodales Semantic Search: Relevanten Inhalt abrufen, wenn Nutzer Modalitäten mischen (z. B. Textsuche gegen Index mit Bildern, Audio oder Dokumenten).
- Retrieval-Augmented Generation (RAG) über Medien hinweg: Embeddings nutzen, um Kontext aus heterogenen Quellen (Dokumente + Medien) zu holen und in nachgelagerte Generierungsworkflows einzubringen.
- Sentiment-Analyse bei gemischten Inhalten: Medien einbetten, um Klassifizierungs- oder Clustering-Pipelines zu unterstützen, bei denen Eingaben Text mit Bildern oder anderen Modalitäten mischen.
- Datenclustering für heterogene Datensätze: Einheitliche Darstellung über Medientypen schaffen, um verwandte Elemente zu gruppieren, auch aus unterschiedlichen Formaten.
- Dokument- + Medienverständnis für Analysen: PDFs (bis 6 Seiten) einbetten und mit anderen Modalitäten in einer Pipeline kombinieren, um nachgelagerte Suche und Klassifizierung zu unterstützen.
FAQ
Ist Gemini Embedding 2 nur für Text?
Nein. Es ist als vollständig multimodales Embedding-Modell konzipiert, das Text, Bilder, Video, Audio und Dokumente in einen einzigen Embedding-Raum abbildet.
Welche Plattformen werden für die Public Preview unterstützt?
Google gibt an, dass Gemini Embedding 2 in der Public Preview über die Gemini API und Vertex AI verfügbar ist.
Welche Eingabegrößen unterstützt das Modell?
Die Seite listet Modalitätsgrenzen auf, darunter 8192 Tokens für Text, bis zu 6 Bilder pro Anfrage, bis zu 120 Sekunden Video (MP4/MOV) und bis zu 6 Seiten für PDFs. Audio wird nativ für das Embedding verarbeitet.
Kann ich mehrere Modalitäten zusammen senden?
Ja. Das Modell versteht versteckte Eingaben nativ, sodass Sie mehrere Modalitäten (z. B. Bild + Text) in einer Anfrage übermitteln können.
Kann die Embedding-Dimensionalität geändert werden?
Ja. Gemini Embedding 2 nutzt Matryoshka Representation Learning (MRL), um von den Standard-3072 Dimensionen herunterzuskalieren; Google empfiehlt 3072, 1536 und 768 für höchste Qualität.
Alternativen
- Nur-Text-Embedding-Modelle: Wenn Ihre Anwendung nur Text verwendet, kann ein reines Text-Embedding-Modell einfacher sein; es kann jedoch Bilder, Video, Audio oder Dokumente nicht nativ in denselben Raum einbetten.
- Getrennte Embeddings pro Modalität: Manche Workflows nutzen unterschiedliche Embedding-Modelle für jede Modalität und kombinieren die Ergebnisse zur Abrufzeit; das kann komplexer sein als ein einheitlicher multimodaler Embedding-Raum.
- Andere multimodale Embedding-Ansätze: Alternative Lösungstypen erzeugen möglicherweise ebenfalls Embeddings für mehrere Medientypen, doch Gemini Embedding 2 betont speziell einen einheitlichen Embedding-Raum und interleaved multimodale Anfragen.
- Index-and-Retrieve-Pipelines mit Embedding-Anbietern: Bei bestehendem embedding-basiertem Vector-Search-Setup können Sie einen multimodalen Embedding-Anbieter/Modell einsetzen; der Hauptunterschied ist, ob das Modell vollständig multimodale einheitliche Embeddings unterstützt.
Alternativen
BookAI.chat
BookAI ermöglicht es Ihnen, mit Ihren Büchern zu chatten, indem Sie einfach den Titel und den Autor angeben.
skills-janitor
skills-janitor prüft, verfolgt die Nutzung und vergleicht deine Claude Code Skills mit neun Slash-Command-Aktionen – ohne Abhängigkeiten.
Struere
Struere ist ein AI-natives Betriebssystem, das Spreadsheet-Workflows durch strukturierte Software ersetzt – mit Dashboards, Alerts und Automationen.
garden-md
Verwandle Meeting-Transkripte in eine strukturierte, verlinkte Company-Wiki aus lokalen Markdown-Dateien mit HTML-Ansicht und Sync aus unterstützten Quellen.
Falconer
Falconer ist eine selbstaktualisierende Wissensplattform für schnelle Teams: interne Doku und Code-Context schreiben, teilen und gezielt finden – an einem Ort.
AakarDev AI
AakarDev AI ist eine leistungsstarke Plattform, die die Entwicklung von KI-Anwendungen mit nahtloser Integration von Vektordatenbanken vereinfacht und eine schnelle Bereitstellung und Skalierbarkeit ermöglicht.