UStackUStack
Gemini Embedding 2 icon

Gemini Embedding 2

Gemini Embedding 2 di Google: modello embedding completamente multimodale per testo, immagini, video, audio e documenti. Anteprima pubblica via Gemini API e Vertex AI.

Gemini Embedding 2

Cos'è Gemini Embedding 2?

Gemini Embedding 2 è il primo modello embedding completamente multimodale di Google, basato sull'architettura Gemini. Mappa testo, immagini, video, audio e documenti in un unico spazio embedding, consentendo flussi di lavoro di retrieval e classificazione su più tipi di media.

Il modello è progettato per gestire semantica in oltre 100 lingue e può semplificare pipeline multimodali producendo un unico tipo di rappresentazione vettoriale per diversi tipi di input media.

Caratteristiche principali

  • Copertura input completamente multimodale (testo, immagini, video, audio, documenti): Produce embedding per più tipi di media, così le applicazioni possono cercare e classificare dati a contenuti misti.
  • Unico spazio embedding unificato: Testo, immagini, video, audio e documenti sono incorporati nello stesso spazio per supportare retrieval e analisi multimodali.
  • Comprensione multimodale interleavata in una singola richiesta: Accetta più modalità insieme (ad esempio, immagine + testo) per catturare relazioni tra diversi media.
  • Limiti di capacità elevati per modalità: Supporta fino a 8192 token di input per testo, fino a 6 immagini per richiesta (PNG/JPEG), fino a 120 secondi di video (MP4/MOV) e embedding audio nativo senza trascrizione intermedia.
  • Embedding di documenti da PDF: Incorpora direttamente PDF fino a 6 pagine invece di convertire prima il contenuto in un altro formato.
  • Dimensioni output embedding flessibili tramite Matryoshka Representation Learning (MRL): Supporta ridimensionamento da un default di 3072 dimensioni; Google raccomanda 3072, 1536 o 768 per la massima qualità.

Come usare Gemini Embedding 2

Gemini Embedding 2 è disponibile in anteprima pubblica tramite Gemini API e Vertex AI. Per iniziare, usa i notebook interattivi Gemini API e Vertex AI Colab forniti da Google e genera embedding per i tuoi input.

Per esperimenti rapidi, Google fornisce anche una demo leggera di ricerca semantica multimodale dove puoi testare come funzionano gli embedding per attività di retrieval.

Casi d'uso

  • Ricerca semantica multimodale: Recupera elementi rilevanti quando gli utenti mescolano modalità di query (ad esempio, ricerca con testo su un indice che contiene immagini, audio o documenti).
  • Retrieval-Augmented Generation (RAG) su media: Usa embedding per recuperare contesto da fonti eterogenee (documenti più media) e alimentare il contenuto recuperato in flussi di generazione downstream.
  • Analisi del sentiment su contenuti misti: Incorpora media per supportare pipeline di classificazione o clustering dove l'input può includere testo con immagini o altre modalità.
  • Clustering dati per dataset eterogenei: Crea una rappresentazione unificata su tipi di media per raggruppare elementi correlati anche se da formati diversi.
  • Comprensione documenti + media per analisi: Incorpora PDF (fino a 6 pagine) e combinali con altre modalità in un'unica pipeline embedding per supportare ricerca e classificazione downstream.

FAQ

Gemini Embedding 2 è solo per testo?

No. È progettato come modello embedding completamente multimodale che mappa testo, immagini, video, audio e documenti in un unico spazio embedding.

Quali piattaforme sono supportate per l'anteprima pubblica?

Google dichiara che Gemini Embedding 2 è disponibile in anteprima pubblica tramite Gemini API e Vertex AI.

Quali dimensioni di input supporta il modello?

La pagina elenca limiti per modalità inclusi 8192 token per testo, fino a 6 immagini per richiesta, fino a 120 secondi di video (MP4/MOV) e fino a 6 pagine per PDF. L'audio è ingerito nativamente per embedding.

Posso inviare più modalità insieme?

Sì. Il modello comprende nativamente input interleavato, quindi puoi passare più modalità (ad esempio, immagine + testo) in una singola richiesta.

È possibile modificare la dimensionalità degli embedding?

Sì. Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) per ridimensionare da 3072 dimensioni predefinite, con Google che raccomanda 3072, 1536 e 768 per la massima qualità.

Alternative

  • Modelli embedding solo testo: Se la tua applicazione usa solo testo, un modello embedding solo testo può essere più semplice; tuttavia, non incorpora nativamente immagini, video, audio o documenti nello stesso spazio.
  • Embedding separati per modalità: Alcuni flussi di lavoro usano modelli embedding diversi per ogni modalità e combinano i risultati al momento del recupero; questo può essere più complesso di un singolo spazio embedding multimodale unificato.
  • Altri approcci multimodali per embedding: Altre soluzioni possono produrre embedding per più tipi di media, ma Gemini Embedding 2 enfatizza specificamente un singolo spazio embedding e richieste multimodali interleaved.
  • Pipeline index-and-retrieve con provider di embedding: Se hai già un setup di ricerca vettoriale basato su embedding, puoi considerare di sostituire con un provider/modello embedding multimodale; la differenza chiave è se il modello supporta embedding unificati completamente multimodali.
Gemini Embedding 2 | UStack