Gemini Embedding 2

Cos'è Gemini Embedding 2?

Gemini Embedding 2 è il primo modello embedding completamente multimodale di Google, basato sull'architettura Gemini. Mappa testo, immagini, video, audio e documenti in un unico spazio embedding, consentendo flussi di lavoro di retrieval e classificazione su più tipi di media.

Il modello è progettato per gestire semantica in oltre 100 lingue e può semplificare pipeline multimodali producendo un unico tipo di rappresentazione vettoriale per diversi tipi di input media.

Caratteristiche principali

Copertura input completamente multimodale (testo, immagini, video, audio, documenti): Produce embedding per più tipi di media, così le applicazioni possono cercare e classificare dati a contenuti misti.
Unico spazio embedding unificato: Testo, immagini, video, audio e documenti sono incorporati nello stesso spazio per supportare retrieval e analisi multimodali.
Comprensione multimodale interleavata in una singola richiesta: Accetta più modalità insieme (ad esempio, immagine + testo) per catturare relazioni tra diversi media.
Limiti di capacità elevati per modalità: Supporta fino a 8192 token di input per testo, fino a 6 immagini per richiesta (PNG/JPEG), fino a 120 secondi di video (MP4/MOV) e embedding audio nativo senza trascrizione intermedia.
Embedding di documenti da PDF: Incorpora direttamente PDF fino a 6 pagine invece di convertire prima il contenuto in un altro formato.
Dimensioni output embedding flessibili tramite Matryoshka Representation Learning (MRL): Supporta ridimensionamento da un default di 3072 dimensioni; Google raccomanda 3072, 1536 o 768 per la massima qualità.

Come usare Gemini Embedding 2

Gemini Embedding 2 è disponibile in anteprima pubblica tramite Gemini API e Vertex AI. Per iniziare, usa i notebook interattivi Gemini API e Vertex AI Colab forniti da Google e genera embedding per i tuoi input.

Per esperimenti rapidi, Google fornisce anche una demo leggera di ricerca semantica multimodale dove puoi testare come funzionano gli embedding per attività di retrieval.

Casi d'uso

Ricerca semantica multimodale: Recupera elementi rilevanti quando gli utenti mescolano modalità di query (ad esempio, ricerca con testo su un indice che contiene immagini, audio o documenti).
Retrieval-Augmented Generation (RAG) su media: Usa embedding per recuperare contesto da fonti eterogenee (documenti più media) e alimentare il contenuto recuperato in flussi di generazione downstream.
Analisi del sentiment su contenuti misti: Incorpora media per supportare pipeline di classificazione o clustering dove l'input può includere testo con immagini o altre modalità.
Clustering dati per dataset eterogenei: Crea una rappresentazione unificata su tipi di media per raggruppare elementi correlati anche se da formati diversi.
Comprensione documenti + media per analisi: Incorpora PDF (fino a 6 pagine) e combinali con altre modalità in un'unica pipeline embedding per supportare ricerca e classificazione downstream.

FAQ

Gemini Embedding 2 è solo per testo?

No. È progettato come modello embedding completamente multimodale che mappa testo, immagini, video, audio e documenti in un unico spazio embedding.

Quali piattaforme sono supportate per l'anteprima pubblica?

Google dichiara che Gemini Embedding 2 è disponibile in anteprima pubblica tramite Gemini API e Vertex AI.

Quali dimensioni di input supporta il modello?

La pagina elenca limiti per modalità inclusi 8192 token per testo, fino a 6 immagini per richiesta, fino a 120 secondi di video (MP4/MOV) e fino a 6 pagine per PDF. L'audio è ingerito nativamente per embedding.

Posso inviare più modalità insieme?

Sì. Il modello comprende nativamente input interleavato, quindi puoi passare più modalità (ad esempio, immagine + testo) in una singola richiesta.

È possibile modificare la dimensionalità degli embedding?

Sì. Gemini Embedding 2 usa Matryoshka Representation Learning (MRL) per ridimensionare da 3072 dimensioni predefinite, con Google che raccomanda 3072, 1536 e 768 per la massima qualità.

Alternative

Modelli embedding solo testo: Se la tua applicazione usa solo testo, un modello embedding solo testo può essere più semplice; tuttavia, non incorpora nativamente immagini, video, audio o documenti nello stesso spazio.
Embedding separati per modalità: Alcuni flussi di lavoro usano modelli embedding diversi per ogni modalità e combinano i risultati al momento del recupero; questo può essere più complesso di un singolo spazio embedding multimodale unificato.
Altri approcci multimodali per embedding: Altre soluzioni possono produrre embedding per più tipi di media, ma Gemini Embedding 2 enfatizza specificamente un singolo spazio embedding e richieste multimodali interleaved.
Pipeline index-and-retrieve con provider di embedding: Se hai già un setup di ricerca vettoriale basato su embedding, puoi considerare di sostituire con un provider/modello embedding multimodale; la differenza chiave è se il modello supporta embedding unificati completamente multimodali.

Gemini Embedding 2

Cos'è Gemini Embedding 2?

Caratteristiche principali

Come usare Gemini Embedding 2

Casi d'uso

FAQ

Gemini Embedding 2 è solo per testo?

Quali piattaforme sono supportate per l'anteprima pubblica?

Quali dimensioni di input supporta il modello?

Posso inviare più modalità insieme?

È possibile modificare la dimensionalità degli embedding?

Alternative

Alternative

BookAI.chat

skills-janitor

Struere

garden-md

Falconer

AakarDev AI