UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 用於機器人具身推理任務,強化空間與多視角理解,支援儀表閱讀;透過 Gemini API 與 Google AI Studio 提供給開發者。

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 是什麼?

Gemini Robotics-ER 1.6 是一款專注機器人的推理模型,旨在幫助實體機器人對現實世界進行推理。它針對「具身推理」,即機器人必須將感知連結至動作——例如解讀所見、理解空間關係,並決定下一步行動。

該模型作為機器人的高階推理元件。它能透過原生呼叫工具執行任務,包括 Google Search,並可與視覺語言動作 (VLA) 模型或其他第三方使用者定義函式合作。本次發布強調空間推理與多視角理解的改進,並新增閱讀儀表(如壓力表與視窗)的能力。

主要功能

  • 強化空間推理:提升指向、計數,以及使用中間「點」來推理多步驟任務的能力。
  • 多視角理解:進階跨多個攝影機串流(如頂視與腕視)的推理,包括遮擋或場景變化的情境。
  • 任務規劃與成功偵測:支援規劃與核心決策能力——偵測任務是否成功,讓代理決定重試或繼續。
  • 工具呼叫執行任務:原生呼叫如 Google Search 等工具,以取得執行期間所需資訊。
  • 儀表閱讀(新功能):讓機器人閱讀複雜壓力表與視窗;透過與 Boston Dynamics 合作發現的使用案例引入。

如何使用 Gemini Robotics-ER 1.6

  1. 透過 Gemini 工具存取模型:透過 Gemini APIGoogle AI Studio 開始使用 Gemini Robotics-ER 1.6(依發布說明)。
  2. 設定具身推理提示:使用分享的開發者 Colab 範例,了解如何設定模型並提示具身推理任務。
  3. 連結機器人能力:在典型設定中,推理模型可呼叫工具(包括 Google Search),並協調 VLA 模型或第三方使用者定義函式來執行動作。

使用案例

  • 閱讀複雜儀表顯示:機器人觀察壓力表或視窗,並使用儀表閱讀提取相關資訊,作為自主工作流程的一部分。
  • 雜亂場景中的計數與指向:在包含多物件的攝影機視圖(如工具)中,模型辨識計數並選取點,以引導進一步推理或計算。
  • 使用中間點的多步驟空間任務:對於需「從-到」移動邏輯或約束的任務(如選取滿足空間需求的物件),模型可使用點將任務拆解為中間推理步驟。
  • 具成功偵測的自主迴圈:機器人嘗試動作,並使用成功偵測決定是否重試或進入計劃下一階段。
  • 跨多攝影機的機器人感知:在多視圖設定中,模型使用多視角推理維持跨時間的連貫理解,即使場景部分被遮擋。

常見問題

Gemini Robotics-ER 1.6 是否適用於對話聊天?

否。本次發布將模型定位為以推理為主的機器人元件,專注具身推理、任務規劃與實體代理的成功偵測。

在此脈絡中「成功偵測」意味什麼?

發布描述成功偵測為自主性的決策引擎:系統用它決定任務是否完成,或是否應重試而非繼續。

模型可呼叫哪些工具?

頁面指出它可原生呼叫如 Google Search 等工具,並可與 VLAs 或其他第三方使用者定義函式合作。

開發者從何處存取模型?

依發布說明,開發者可透過 Gemini APIGoogle AI Studio 存取。

如何取得範例提示與設定指南?

發布提及開發者 Colab 包含設定模型與提示具身推理任務的範例。

替代方案

  • 早期具身推理模型版本:如果您的流程已建構於 Gemini Robotics-ER 之上,實用替代方案是使用先前版本(例如 ER 1.5),並評估您所需的特定改進(空間推理、多視角理解、儀表閱讀)是否對您的使用案例重要。
  • 通用多模態模型搭配機器人工具:另一選擇是將通用多模態模型與獨立的機器人感知/控制模組結合,其中具身推理由多個元件組裝,而非使用專用機器人推理模型。
  • 獨立視覺語言動作 (VLA) 方法:對於主要專注於動作生成的團隊,替代流程是更依賴 VLA 模型進行感知到動作轉換,同時使用外部邏輯處理成功偵測與規劃。
  • 無專用機器人推理模型的工具使用代理框架:您可透過代理框架協調感知輸入與工具呼叫來建構代理行為,不過可能需額外工作以匹配此版本的具身推理重點(空間推理與成功偵測)。
Gemini Robotics-ER 1.6 | UStack