UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2 est le premier modèle d’embedding entièrement multimodal de Google : texte, images, vidéo, audio et documents. En aperçu public via Gemini API et Vertex AI.

Gemini Embedding 2

Qu’est-ce que Gemini Embedding 2 ?

Gemini Embedding 2 est le premier modèle d’embedding entièrement multimodal de Google, basé sur l’architecture Gemini. Il mappe texte, images, vidéo, audio et documents dans un espace d’embedding unique, permettant des workflows de recherche et de classification sur plusieurs types de médias.

Le modèle est conçu pour gérer la sémantique dans plus de 100 langues et simplifie les pipelines multimodaux en produisant un seul type de représentation vectorielle pour différents types d’entrées média.

Fonctionnalités principales

  • Couverture d’entrée entièrement multimodale (texte, images, vidéo, audio, documents) : Produit des embeddings pour plusieurs types de médias afin que les applications puissent rechercher et classer des données à contenu mixte.
  • Espace d’embedding unique et unifié : Texte, images, vidéo, audio et documents sont intégrés dans le même espace pour supporter la recherche et l’analyse multimodales.
  • Compréhension multimodale entrelacée en une seule requête : Accepte plusieurs modalités ensemble (par exemple, image + texte) pour capturer les relations entre différents médias.
  • Limites élevées par modalité : Supporte jusqu’à 8192 jetons d’entrée pour le texte, jusqu’à 6 images par requête (PNG/JPEG), jusqu’à 120 secondes de vidéo (MP4/MOV), et embedding audio natif sans transcription intermédiaire.
  • Embeddings de documents à partir de PDFs : Intègre directement les PDFs jusqu’à 6 pages sans convertir le contenu au préalable.
  • Dimensions de sortie flexibles via Matryoshka Representation Learning (MRL) : Supporte la réduction à partir des 3072 dimensions par défaut ; Google recommande 3072, 1536 ou 768 pour une qualité optimale.

Comment utiliser Gemini Embedding 2

Gemini Embedding 2 est disponible en aperçu public via le Gemini API et Vertex AI. Pour démarrer, utilisez les notebooks Colab interactifs Gemini API et Vertex AI fournis par Google, puis générez des embeddings pour vos entrées.

Pour des tests rapides, Google propose aussi une démo légère de recherche sémantique multimodale où vous pouvez tester le fonctionnement des embeddings pour des tâches de recherche.

Cas d’usage

  • Recherche sémantique multimodale : Récupérez des éléments pertinents quand les utilisateurs mélangent les modalités de requête (par exemple, recherche textuelle sur un index contenant images, audio ou documents).
  • Retrieval-Augmented Generation (RAG) sur plusieurs médias : Utilisez les embeddings pour récupérer du contexte depuis des sources hétérogènes (documents + médias) et alimenter les workflows de génération en aval.
  • Analyse de sentiment sur contenu mixte : Intégrez les médias pour supporter des pipelines de classification ou de clustering où l’entrée inclut du texte avec des images ou d’autres modalités.
  • Regroupement de données pour datasets hétérogènes : Créez une représentation unifiée sur les types de médias pour grouper des éléments liés même s’ils proviennent de formats différents.
  • Compréhension document + média pour l’analytique : Intégrez des PDFs (jusqu’à 6 pages) et combinez-les avec d’autres modalités dans un pipeline d’embedding unique pour supporter recherche et classification en aval.

FAQ

Gemini Embedding 2 est-il réservé au texte ?

Non. Il est conçu comme un modèle d’embedding entièrement multimodal qui mappe texte, images, vidéo, audio et documents dans un espace d’embedding unique.

Quelles plateformes sont prises en charge pour l’aperçu public ?

Google indique que Gemini Embedding 2 est disponible en aperçu public via le Gemini API et Vertex AI.

Quelles tailles d’entrée le modèle supporte-t-il ?

La page liste les limites par modalité : 8192 jetons pour le texte, jusqu’à 6 images par requête, jusqu’à 120 secondes de vidéo (MP4/MOV), et jusqu’à 6 pages pour les PDFs. L’audio est ingéré nativement pour l’embedding.

Puis-je envoyer plusieurs modalités ensemble ?

Oui. Le modèle comprend nativement l’entrée entrelacée, vous permettant de passer plusieurs modalités (par exemple, image + texte) en une seule requête.

La dimensionnalité des embeddings peut-elle être modifiée ?

Oui. Gemini Embedding 2 utilise Matryoshka Representation Learning (MRL) pour réduire à partir des 3072 dimensions par défaut, Google recommandant 3072, 1536 et 768 pour une qualité optimale.

Alternatives

  • Modèles d’embedding texte uniquement : Si votre application utilise uniquement du texte, un modèle d’embedding texte uniquement peut être plus simple ; cependant, il ne gère pas nativement les images, vidéos, audio ou documents dans le même espace.
  • Embeddings séparés par modalité : Certains workflows utilisent des modèles d’embedding différents pour chaque modalité et combinent les résultats au moment de la récupération ; cela peut être plus complexe qu’un espace d’embedding multimodal unifié unique.
  • Autres approches multimodales d’embedding : D’autres types de solutions peuvent aussi produire des embeddings pour plusieurs types de médias, mais Gemini Embedding 2 met spécifiquement l’accent sur un espace d’embedding unique et des requêtes multimodales entrelacées.
  • Pipelines d’indexation et de récupération avec fournisseurs d’embeddings : Si vous avez déjà une configuration de recherche vectorielle basée sur des embeddings, vous pouvez envisager de remplacer par un fournisseur/modèle d’embedding multimodal ; la différence clé est que le modèle supporte des embeddings unifiés entièrement multimodaux.
Gemini Embedding 2 | UStack