UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 è un modello di reasoning per robot: migliora comprensione spaziale e multi-view e consente lettura strumenti. Disponibile via Gemini API e Google AI Studio.

Gemini Robotics-ER 1.6

Cos'è Gemini Robotics-ER 1.6?

Gemini Robotics-ER 1.6 è un modello di reasoning focalizzato sulla robotica progettato per aiutare i robot fisici a ragionare sul mondo reale. Mira al “embodied reasoning”, dove un robot deve collegare percezione ad azioni—come interpretare ciò che vede, comprendere relazioni spaziali e decidere cosa fare dopo.

Il modello è presentato come un componente di reasoning di alto livello per robot. Può eseguire compiti chiamando nativamente tool, inclusa Google Search, e può lavorare con modelli vision-language-action (VLA) o altre funzioni definite dall'utente di terze parti. Il rilascio evidenzia miglioramenti al reasoning spaziale e alla comprensione multi-view, più una nuova capacità per leggere strumenti come manometri e vetri di ispezione.

Caratteristiche Principali

  • Reasoning spaziale migliorato: Migliora capacità come indicazione, conteggio e uso di “punti” intermedi per ragionare su compiti multi-step.
  • Comprensione multi-view: Avanza il reasoning su più flussi video (es. viste dall'alto e dal polso), inclusi casi con occlusioni o scene in cambiamento.
  • Pianificazione compiti e rilevamento successo: Supporta pianificazione e una capacità decisionale core—rilevare se un compito è riuscito per permettere all'agente di ritentare o procedere.
  • Chiamata tool per esecuzione compiti: Chiama nativamente tool come Google Search per trovare informazioni necessarie durante l'esecuzione.
  • Lettura strumenti (nuova capacità): Consente ai robot di leggere manometri complessi e vetri di ispezione; introdotta tramite un caso d'uso scoperto in collaborazione con Boston Dynamics.

Come Usare Gemini Robotics-ER 1.6

  1. Accedi al modello via tool Gemini: Inizia a usare Gemini Robotics-ER 1.6 tramite Gemini API o Google AI Studio (come indicato nel rilascio).
  2. Configura prompt per embodied reasoning: Usa gli esempi Colab condivisi per developer per vedere come configurare il modello e promptarlo per compiti di embodied reasoning.
  3. Collega alle capacità del robot: In una configurazione tipica, il modello di reasoning può chiamare tool (inclusa Google Search) e coordinarsi con modelli VLA o funzioni definite dall'utente di terze parti per eseguire azioni.

Casi d'Uso

  • Lettura display strumenti complessi: Un robot osserva un manometro o vetro di ispezione e usa la lettura strumenti per estrarre informazioni rilevanti come parte di un workflow autonomo.
  • Conteggio e indicazione in scene clutterate: In una vista camera con più oggetti (es. utensili), il modello identifica conteggi e seleziona punti che guidano ulteriore reasoning o calcoli.
  • Compiti spaziali multi-step con punti intermedi: Per compiti che richiedono logica di movimento “da-a” o vincoli (es. selezione oggetti che soddisfano un requisito spaziale), il modello usa punti per suddividere il compito in step di reasoning intermedi.
  • Loop di autonomia con rilevamento successo: Un robot tenta un'azione e usa il rilevamento successo per decidere se ritentare o passare alla fase successiva di un piano.
  • Percezione robotica su più telecamere: In setup con più viste, il modello usa reasoning multi-view per mantenere una comprensione coerente di ciò che accade nel tempo, anche con parti della scena occluse.

FAQ

Gemini Robotics-ER 1.6 è pensato per chat conversazionali?
No. Il rilascio presenta il modello come componente robotics-first focalizzato su embodied reasoning, pianificazione compiti e rilevamento successo per agenti fisici.

Cosa significa “rilevamento successo” in questo contesto?
Il rilascio descrive il rilevamento successo come motore decisionale per l'autonomia: il sistema lo usa per decidere se un compito è finito o se ritentare vs procedere.

Quali tool può chiamare il modello?
La pagina indica che può chiamare nativamente tool come Google Search e può lavorare anche con VLA o altre funzioni definite dall'utente di terze parti.

Dove possono accedere i developer al modello?
Secondo il rilascio, è disponibile per developer via Gemini API e Google AI Studio.

Come ottengo prompt di esempio e guida alla configurazione?
Il rilascio menziona un Colab per developer contenente esempi per configurare il modello e promptarlo per compiti di embodied reasoning.

Alternative

  • Versioni precedenti del modello embodied-reasoning: Se il tuo workflow è già costruito intorno a Gemini Robotics-ER, un'alternativa pratica è utilizzare release precedenti (es. ER 1.5) e valutare se i miglioramenti specifici necessari (ragionamento spaziale, comprensione multi-view, lettura strumenti) sono rilevanti per il tuo caso d'uso.
  • Modelli multimodali general-purpose con tooling per robotica: Un'altra opzione è combinare un modello multimodale generale con moduli separati di percezione/controllo robotica, dove il ragionamento embodied è assemblato da componenti multipli anziché usare un modello dedicato di ragionamento robotico.
  • Approcci standalone vision-language-action (VLA): Per team focalizzati principalmente sulla generazione di azioni, un workflow alternativo è affidarsi maggiormente a modelli VLA per percezione-to-action, usando logica esterna per rilevamento successo e pianificazione.
  • Framework per agenti tool-using senza modello dedicato di ragionamento robotico: Puoi costruire comportamento agentico orchestrando input di percezione e chiamate tool in un framework agente, anche se potresti aver bisogno di lavoro aggiuntivo per eguagliare il focus embodied reasoning del release (ragionamento spaziale e rilevamento successo).