Gemini Robotics-ER 1.6

¿Qué es Gemini Robotics-ER 1.6?

Gemini Robotics-ER 1.6 es un modelo de razonamiento enfocado en robótica diseñado para ayudar a robots físicos a razonar sobre el mundo real. Se centra en el “razonamiento encarnado”, donde un robot debe conectar la percepción con acciones, como interpretar lo que ve, entender relaciones espaciales y decidir qué hacer a continuación.

El modelo se presenta como un componente de razonamiento de alto nivel para robots. Puede ejecutar tareas llamando de forma nativa a herramientas, incluyendo Google Search, y puede trabajar con modelos de visión-lenguaje-acción (VLA) u otras funciones definidas por el usuario de terceros. El lanzamiento destaca mejoras en el razonamiento espacial y la comprensión multi-vista, además de una nueva capacidad para leer instrumentos como medidores y mirillas.

Características clave

Razonamiento espacial mejorado: Mejora habilidades como señalar, contar y usar “puntos” intermedios para razonar en tareas multi-paso.
Comprensión multi-vista: Avanza el razonamiento a través de múltiples flujos de cámara (p. ej., vistas superior y de muñeca), incluyendo situaciones con oclusión o escenas cambiantes.
Planificación de tareas y detección de éxito: Soporta planificación y una capacidad de decisión central: detectar si una tarea ha tenido éxito para que un agente decida reintentar o continuar.
Llamada a herramientas para ejecución de tareas: Llama de forma nativa a herramientas como Google Search para obtener información necesaria durante la ejecución.
Lectura de instrumentos (nueva capacidad): Permite a los robots leer medidores complejos y mirillas; introducida mediante un caso de uso descubierto en colaboración con Boston Dynamics.

Cómo usar Gemini Robotics-ER 1.6

Accede al modelo mediante herramientas de Gemini: Comienza a usar Gemini Robotics-ER 1.6 a través de la Gemini API o Google AI Studio (como se indica en el lanzamiento).
Configura prompts para razonamiento encarnado: Usa los ejemplos compartidos de Colab para desarrolladores para ver cómo configurar el modelo y promptéarlo para tareas de razonamiento encarnado.
Conecta con capacidades del robot: En una configuración típica, el modelo de razonamiento puede llamar a herramientas (incluyendo Google Search) y coordinar con modelos VLA u otras funciones definidas por el usuario de terceros para realizar acciones.

Casos de uso

Lectura de pantallas de instrumentos complejos: Un robot observa un medidor o mirilla y usa lectura de instrumentos para extraer información relevante como parte de un flujo de trabajo autónomo.
Contar y señalar en escenas desordenadas: En una vista de cámara con múltiples objetos (p. ej., herramientas), el modelo identifica conteos y selecciona puntos que guían razonamientos o cálculos posteriores.
Tareas espaciales multi-paso usando puntos intermedios: Para tareas que requieren lógica de movimiento “de-a” o restricciones (p. ej., seleccionar objetos que cumplan un requisito espacial), el modelo usa puntos para dividir la tarea en pasos de razonamiento intermedios.
Bucles de autonomía con detección de éxito: Un robot intenta una acción y usa detección de éxito para determinar si debe reintentar o pasar a la siguiente etapa de un plan.
Percepción robótica a través de múltiples cámaras: En configuraciones con múltiples vistas, el modelo usa razonamiento multi-vista para mantener una comprensión coherente de lo que ocurre a lo largo del tiempo, incluso cuando partes de la escena están ocluidas.

Preguntas frecuentes

¿Está Gemini Robotics-ER 1.6 pensado para chat conversacional?
No. El lanzamiento presenta el modelo como un componente de robótica centrado en razonamiento, planificación de tareas y detección de éxito para agentes físicos.

¿Qué significa “detección de éxito” en este contexto?
El lanzamiento describe la detección de éxito como un motor de decisión para la autonomía: el sistema lo usa para decidir si una tarea ha terminado o si debe reintentar en lugar de continuar.

¿Qué herramientas puede llamar el modelo?
La página indica que puede llamar de forma nativa a herramientas como Google Search y también trabajar con VLAs u otras funciones definidas por el usuario de terceros.

¿Dónde pueden acceder los desarrolladores al modelo?
Según el lanzamiento, está disponible para desarrolladores a través de la Gemini API y Google AI Studio.

¿Cómo obtengo ejemplos de prompts y guías de configuración?
El lanzamiento menciona un Colab para desarrolladores con ejemplos para configurar el modelo y promptéarlo para tareas de razonamiento encarnado.

Alternativas

Versiones anteriores del modelo de razonamiento encarnado: Si tu flujo de trabajo ya está construido alrededor de Gemini Robotics-ER, una alternativa práctica es usar lanzamientos previos (p. ej., ER 1.5) y evaluar si las mejoras específicas que necesitas (razonamiento espacial, comprensión multi-vista, lectura de instrumentos) son relevantes para tu caso de uso.
Modelos multimodales de propósito general con herramientas de robótica: Otra opción es combinar un modelo multimodal general con módulos separados de percepción/control de robótica, donde el razonamiento encarnado se ensambla a partir de múltiples componentes en lugar de usar un modelo de razonamiento robótico dedicado.
Enfoques independientes de visión-lenguaje-acción (VLA): Para equipos enfocados principalmente en generación de acciones, un flujo de trabajo alternativo es depender más de modelos VLA para percepción-a-acción mientras se usa lógica externa para detección de éxito y planificación.
Frameworks de agentes que usan herramientas sin un modelo de razonamiento robótico dedicado: Puedes construir comportamiento agentivo orquestando entradas de percepción y llamadas a herramientas en un framework de agentes, aunque podrías necesitar trabajo adicional para igualar el enfoque en razonamiento encarnado del lanzamiento (razonamiento espacial y detección de éxito).

Gemini Robotics-ER 1.6

¿Qué es Gemini Robotics-ER 1.6?

Características clave

Cómo usar Gemini Robotics-ER 1.6

Casos de uso

Preguntas frecuentes

Alternativas

Alternativas

AakarDev AI

Arduino VENTUNO Q

Devin

BenchSpan

open-codex-computer-use

Codex Plugins