Gemini Embedding 2

Was ist Gemini Embedding 2?

Gemini Embedding 2 ist Googles erstes vollständig multimodales Embedding-Modell auf Basis der Gemini-Architektur. Es bildet Text, Bilder, Video, Audio und Dokumente in einem einzigen Embedding-Raum ab und ermöglicht Retrieval- und Klassifizierungsworkflows über mehrere Medientypen hinweg.

Das Modell ist für Semantik in mehr als 100 Sprachen ausgelegt und vereinfacht multimodale Pipelines, indem es eine einheitliche Vektordarstellung für verschiedene Eingabemediene generiert.

Wichtige Funktionen

Vollständige multimodale Eingabeabdeckung (Text, Bilder, Video, Audio, Dokumente): Erzeugt Embeddings für mehrere Medientypen, damit Anwendungen gemischte Inhalte durchsuchen und klassifizieren können.
Einheitlicher Embedding-Raum: Text, Bilder, Video, Audio und Dokumente werden in denselben Raum eingebettet, um multimodales Retrieval und Analysen zu unterstützen.
Verstecktes multimodales Verständnis in einer Anfrage: Nimmt mehrere Modalitäten gleichzeitig auf (z. B. Bild + Text), um Beziehungen zwischen Medien zu erfassen.
Hohe Kapazitätsgrenzen für Modalitäten: Unterstützt bis zu 8192 Input-Tokens für Text, bis zu 6 Bilder pro Anfrage (PNG/JPEG), bis zu 120 Sekunden Video (MP4/MOV) und nativ Audio-Embedding ohne Zwischentranskription.
Dokument-Embeddings aus PDFs: Embeddet direkt PDFs bis zu 6 Seiten, statt Inhalte zuerst umzuwandeln.
Flexible Embedding-Ausgabedimensionen via Matryoshka Representation Learning (MRL): Unterstützt Skalierung von den Standard-3072 Dimensionen herunter; Google empfiehlt 3072, 1536 oder 768 für höchste Qualität.

So verwenden Sie Gemini Embedding 2

Gemini Embedding 2 ist in der Public Preview über die Gemini API und Vertex AI verfügbar. Zum Einstieg nutzen Sie die interaktiven Gemini API- und Vertex AI Colab-Notebooks von Google, um Embeddings für Ihre Eingaben zu generieren.

Für schnelle Experimente bietet Google ein leichtgewichtiges multimodales Semantic-Search-Demo, in dem Sie testen können, wie die Embeddings für Retrieval-Aufgaben funktionieren.

Anwendungsfälle

Multimodales Semantic Search: Relevanten Inhalt abrufen, wenn Nutzer Modalitäten mischen (z. B. Textsuche gegen Index mit Bildern, Audio oder Dokumenten).
Retrieval-Augmented Generation (RAG) über Medien hinweg: Embeddings nutzen, um Kontext aus heterogenen Quellen (Dokumente + Medien) zu holen und in nachgelagerte Generierungsworkflows einzubringen.
Sentiment-Analyse bei gemischten Inhalten: Medien einbetten, um Klassifizierungs- oder Clustering-Pipelines zu unterstützen, bei denen Eingaben Text mit Bildern oder anderen Modalitäten mischen.
Datenclustering für heterogene Datensätze: Einheitliche Darstellung über Medientypen schaffen, um verwandte Elemente zu gruppieren, auch aus unterschiedlichen Formaten.
Dokument- + Medienverständnis für Analysen: PDFs (bis 6 Seiten) einbetten und mit anderen Modalitäten in einer Pipeline kombinieren, um nachgelagerte Suche und Klassifizierung zu unterstützen.

FAQ

Ist Gemini Embedding 2 nur für Text?

Nein. Es ist als vollständig multimodales Embedding-Modell konzipiert, das Text, Bilder, Video, Audio und Dokumente in einen einzigen Embedding-Raum abbildet.

Welche Plattformen werden für die Public Preview unterstützt?

Google gibt an, dass Gemini Embedding 2 in der Public Preview über die Gemini API und Vertex AI verfügbar ist.

Welche Eingabegrößen unterstützt das Modell?

Die Seite listet Modalitätsgrenzen auf, darunter 8192 Tokens für Text, bis zu 6 Bilder pro Anfrage, bis zu 120 Sekunden Video (MP4/MOV) und bis zu 6 Seiten für PDFs. Audio wird nativ für das Embedding verarbeitet.

Kann ich mehrere Modalitäten zusammen senden?

Ja. Das Modell versteht versteckte Eingaben nativ, sodass Sie mehrere Modalitäten (z. B. Bild + Text) in einer Anfrage übermitteln können.

Kann die Embedding-Dimensionalität geändert werden?

Ja. Gemini Embedding 2 nutzt Matryoshka Representation Learning (MRL), um von den Standard-3072 Dimensionen herunterzuskalieren; Google empfiehlt 3072, 1536 und 768 für höchste Qualität.

Alternativen

Nur-Text-Embedding-Modelle: Wenn Ihre Anwendung nur Text verwendet, kann ein reines Text-Embedding-Modell einfacher sein; es kann jedoch Bilder, Video, Audio oder Dokumente nicht nativ in denselben Raum einbetten.
Getrennte Embeddings pro Modalität: Manche Workflows nutzen unterschiedliche Embedding-Modelle für jede Modalität und kombinieren die Ergebnisse zur Abrufzeit; das kann komplexer sein als ein einheitlicher multimodaler Embedding-Raum.
Andere multimodale Embedding-Ansätze: Alternative Lösungstypen erzeugen möglicherweise ebenfalls Embeddings für mehrere Medientypen, doch Gemini Embedding 2 betont speziell einen einheitlichen Embedding-Raum und interleaved multimodale Anfragen.
Index-and-Retrieve-Pipelines mit Embedding-Anbietern: Bei bestehendem embedding-basiertem Vector-Search-Setup können Sie einen multimodalen Embedding-Anbieter/Modell einsetzen; der Hauptunterschied ist, ob das Modell vollständig multimodale einheitliche Embeddings unterstützt.

Gemini Embedding 2

Was ist Gemini Embedding 2?

Wichtige Funktionen

So verwenden Sie Gemini Embedding 2

Anwendungsfälle

FAQ

Ist Gemini Embedding 2 nur für Text?

Welche Plattformen werden für die Public Preview unterstützt?

Welche Eingabegrößen unterstützt das Modell?

Kann ich mehrere Modalitäten zusammen senden?

Kann die Embedding-Dimensionalität geändert werden?

Alternativen

Alternativen

BookAI.chat

skills-janitor

Struere

garden-md

Falconer

AakarDev AI