UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 面向具身任务的机器人推理模型,提升空间与多视图理解,并支持仪表读取能力,开发者可用 Gemini API 和 Google AI Studio 调用。

Gemini Robotics-ER 1.6

什么是 Gemini Robotics-ER 1.6?

Gemini Robotics-ER 1.6 是一款专注于机器人的推理模型,旨在帮助物理机器人对现实世界进行推理。它针对“具身推理”,即机器人需将感知与动作连接起来——如解释所见内容、理解空间关系,并决定下一步行动。

该模型作为机器人的高级推理组件。它可通过原生调用工具(包括 Google Search)执行任务,并可与视觉-语言-动作(VLA)模型或其他第三方用户定义函数协作。本次发布突出了空间推理和多视图理解的改进,以及新增仪表读取能力,如读数表和视镜。

主要特性

  • 增强空间推理:提升指向、计数以及使用中间“点”来推理多步骤任务的能力。
  • 多视图理解:推进跨多个相机流(如头顶和腕部视图)的推理,包括遮挡或场景变化的情况。
  • 任务规划与成功检测:支持规划和核心决策能力——检测任务是否成功,以便代理选择重试或继续。
  • 工具调用以执行任务:原生调用 Google Search 等工具,获取执行所需信息。
  • 仪表读取(新增能力):使机器人能读取复杂仪表和视镜;通过与 Boston Dynamics 合作发现的用例引入。

如何使用 Gemini Robotics-ER 1.6

  1. 通过 Gemini 工具访问模型:通过 Gemini APIGoogle AI Studio 开始使用 Gemini Robotics-ER 1.6(按发布说明)。
  2. 为具身推理配置提示:使用共享的开发者 Colab 示例,了解如何配置模型并为其具身推理任务提供提示。
  3. 连接机器人能力:在典型设置中,推理模型可调用工具(包括 Google Search),并与 VLA 模型或第三方用户定义函数协调执行动作。

使用场景

  • 读取复杂仪表显示:机器人观察仪表或视镜,使用仪表读取能力提取相关信息,作为自主工作流程的一部分。
  • 杂乱场景中的计数与指向:在包含多个物体(如工具)的相机视图中,模型识别计数并选择点,以指导进一步推理或计算。
  • 使用中间点的多步骤空间任务:对于需要“从-到”移动逻辑或约束的任务(如选择满足空间要求的物体),模型可使用点将任务分解为中间推理步骤。
  • 带成功检测的自主循环:机器人尝试动作,并使用成功检测决定是否重试或进入计划的下一阶段。
  • 跨多个相机的机器人感知:在多视图设置中,模型使用多视图推理保持对场景随时间变化的连贯理解,即使部分场景被遮挡。

常见问题

Gemini Robotics-ER 1.6 是否适用于对话聊天?
否。本次发布将该模型定位为以推理为主的机器人组件,专注于具身推理、任务规划和物理代理的成功检测。

在此上下文中,“成功检测”是什么意思?
发布描述成功检测为自主性的决策引擎:系统用它决定任务是否完成,或是否应重试而非继续。

模型可调用哪些工具?
页面指出,它可原生调用 Google Search 等工具,并可与 VLAs 或其他第三方用户定义函数协作。

开发者在哪里可以访问该模型?
根据发布,它可通过 Gemini APIGoogle AI Studio 供开发者使用。

如何获取示例提示和配置指南?
发布提到一个开发者 Colab,包含配置模型并为其具身推理任务提供提示的示例。

替代方案

  • 早期具身推理模型版本:如果您的流程已围绕 Gemini Robotics-ER 构建,实用替代方案是使用先前版本(例如 ER 1.5),并评估您需要的特定改进(空间推理、多视图理解、仪表读取)是否对您的用例重要。
  • 通用多模态模型结合机器人工具:另一种选择是将通用多模态模型与独立的机器人感知/控制模块结合,其中具身推理由多个组件组装,而非使用专用机器人推理模型。
  • 独立视觉-语言-动作 (VLA) 方法:对于主要关注动作生成的团队,替代流程是更多依赖 VLA 模型进行感知到动作,同时使用外部逻辑进行成功检测和规划。
  • 无专用机器人推理模型的工具使用代理框架:您可以通过在代理框架中协调感知输入和工具调用来构建代理行为,尽管可能需要额外工作来匹配该版本的具身推理重点(空间推理和成功检测)。