UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 est un modèle de raisonnement pour robots : meilleure compréhension spatiale multi-vues, lecture d’instruments. Disponible via Gemini API et Google AI Studio.

Gemini Robotics-ER 1.6

Qu'est-ce que Gemini Robotics-ER 1.6 ?

Gemini Robotics-ER 1.6 est un modèle de raisonnement axé sur la robotique, conçu pour aider les robots physiques à raisonner sur le monde réel. Il cible le « raisonnement incarné », où un robot doit relier perception et actions — comme interpréter ce qu'il voit, comprendre les relations spatiales et décider de la prochaine étape.

Le modèle est présenté comme un composant de raisonnement de haut niveau pour robots. Il peut exécuter des tâches en appelant nativement des outils, y compris Google Search, et il peut fonctionner avec des modèles vision-langage-action (VLA) ou d'autres fonctions définies par l'utilisateur tierce partie. La sortie met en avant des améliorations du raisonnement spatial et de la compréhension multi-vues, plus une nouvelle capacité de lecture d'instruments comme les jauges et les verres de vue.

Fonctionnalités principales

  • Raisonnement spatial amélioré : Améliore des capacités comme pointer, compter et utiliser des « points » intermédiaires pour raisonner à travers des tâches multi-étapes.
  • Compréhension multi-vues : Avance le raisonnement à travers plusieurs flux de caméras (ex. : vues aériennes et au poignet), y compris dans des situations d'occlusion ou de scènes changeantes.
  • Planification de tâches et détection de succès : Soutient la planification et une capacité de décision centrale — détecter si une tâche a réussi pour qu'un agent choisisse de réessayer ou de continuer.
  • Appel d'outils pour exécution de tâches : Appelle nativement des outils comme Google Search pour trouver les informations nécessaires pendant l'exécution.
  • Lecture d'instruments (nouvelle capacité) : Permet aux robots de lire des jauges complexes et des verres de vue ; introduite via un cas d'usage découvert en collaboration avec Boston Dynamics.

Comment utiliser Gemini Robotics-ER 1.6

  1. Accéder au modèle via les outils Gemini : Commencez à utiliser Gemini Robotics-ER 1.6 via le Gemini API ou Google AI Studio (comme indiqué dans la sortie).
  2. Configurer des prompts pour raisonnement incarné : Utilisez les exemples Colab partagés par les développeurs pour voir comment configurer le modèle et le prompt pour des tâches de raisonnement incarné.
  3. Connecter aux capacités du robot : Dans une configuration typique, le modèle de raisonnement peut appeler des outils (y compris Google Search) et coordonner avec des modèles VLA ou des fonctions définies par l'utilisateur tierce partie pour exécuter des actions.

Cas d'usage

  • Lecture d'affichages d'instruments complexes : Un robot observe une jauge ou un verre de vue et utilise la lecture d'instruments pour extraire des informations pertinentes dans un flux de travail autonome.
  • Comptage et pointage dans des scènes encombrées : Dans une vue caméra contenant plusieurs objets (ex. : outils), le modèle identifie les comptes et sélectionne des points qui guident un raisonnement ou des calculs ultérieurs.
  • Tâches spatiales multi-étapes avec points intermédiaires : Pour des tâches nécessitant une logique de mouvement « de-à » ou des contraintes (ex. : sélectionner des objets satisfaisant une exigence spatiale), le modèle utilise des points pour décomposer la tâche en étapes de raisonnement intermédiaires.
  • Boucles d'autonomie avec détection de succès : Un robot tente une action et utilise la détection de succès pour déterminer s'il doit réessayer ou passer à l'étape suivante d'un plan.
  • Perception robotique à travers plusieurs caméras : Dans des configurations multi-vues, le modèle utilise le raisonnement multi-vues pour maintenir une compréhension cohérente de ce qui se passe dans le temps, même quand des parties de la scène sont occultées.

FAQ

Gemini Robotics-ER 1.6 est-il destiné au chat conversationnel ?
Non. La sortie présente le modèle comme un composant robotique priorisant le raisonnement, axé sur le raisonnement incarné, la planification de tâches et la détection de succès pour agents physiques.

Que signifie « détection de succès » dans ce contexte ?
La sortie décrit la détection de succès comme un moteur de décision pour l'autonomie : le système l'utilise pour décider si une tâche est terminée ou s'il doit réessayer plutôt que continuer.

Quels outils le modèle peut-il appeler ?
La page indique qu'il peut appeler nativement des outils comme Google Search et peut aussi fonctionner avec des VLA ou d'autres fonctions définies par l'utilisateur tierce partie.

Où les développeurs peuvent-ils accéder au modèle ?
Selon la sortie, il est disponible pour les développeurs via le Gemini API et Google AI Studio.

Comment obtenir des exemples de prompts et des conseils de configuration ?
La sortie mentionne un Colab développeur contenant des exemples pour configurer le modèle et le prompt pour des tâches de raisonnement incarné.

Alternatives

  • Versions antérieures du modèle de raisonnement incarné : Si votre flux de travail est déjà construit autour de Gemini Robotics-ER, une alternative pratique consiste à utiliser des versions antérieures (ex. ER 1.5) et à évaluer si les améliorations spécifiques dont vous avez besoin (raisonnement spatial, compréhension multi-vues, lecture d’instruments) sont pertinentes pour votre cas d’usage.
  • Modèles multimodaux généralistes avec outils robotiques : Une autre option est de combiner un modèle multimodal généraliste avec des modules de perception/contrôle robotiques séparés, où le raisonnement incarné est assemblé à partir de plusieurs composants plutôt que d’utiliser un modèle de raisonnement robotique dédié.
  • Approches autonomes vision-langage-action (VLA) : Pour les équipes axées principalement sur la génération d’actions, un flux de travail alternatif consiste à s’appuyer davantage sur des modèles VLA pour la perception vers l’action, tout en utilisant une logique externe pour la détection de succès et la planification.
  • Frameworks d’agents utilisant des outils sans modèle de raisonnement robotique dédié : Vous pouvez construire un comportement agentique en orchestrant les entrées de perception et les appels d’outils dans un framework d’agents, bien que vous deviez peut-être effectuer un travail supplémentaire pour égaler l’accent mis par cette version sur le raisonnement incarné (raisonnement spatial et détection de succès).
Gemini Robotics-ER 1.6 | UStack