Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 是什麼？

Gemini Robotics-ER 1.6 是一款專注機器人的推理模型，旨在幫助實體機器人對現實世界進行推理。它針對「具身推理」，即機器人必須將感知連結至動作——例如解讀所見、理解空間關係，並決定下一步行動。

該模型作為機器人的高階推理元件。它能透過原生呼叫工具執行任務，包括 Google Search，並可與視覺語言動作 (VLA) 模型或其他第三方使用者定義函式合作。本次發布強調空間推理與多視角理解的改進，並新增閱讀儀表（如壓力表與視窗）的能力。

透過 Gemini 工具存取模型：透過 Gemini API 或 Google AI Studio 開始使用 Gemini Robotics-ER 1.6（依發布說明）。
設定具身推理提示：使用分享的開發者 Colab 範例，了解如何設定模型並提示具身推理任務。
連結機器人能力：在典型設定中，推理模型可呼叫工具（包括 Google Search），並協調 VLA 模型或第三方使用者定義函式來執行動作。

Gemini Robotics-ER 1.6 是否適用於對話聊天？

否。本次發布將模型定位為以推理為主的機器人元件，專注具身推理、任務規劃與實體代理的成功偵測。

在此脈絡中「成功偵測」意味什麼？

發布描述成功偵測為自主性的決策引擎：系統用它決定任務是否完成，或是否應重試而非繼續。

模型可呼叫哪些工具？

頁面指出它可原生呼叫如 Google Search 等工具，並可與 VLAs 或其他第三方使用者定義函式合作。

開發者從何處存取模型？

依發布說明，開發者可透過 Gemini API 與 Google AI Studio 存取。

如何取得範例提示與設定指南？

發布提及開發者 Colab 包含設定模型與提示具身推理任務的範例。

早期具身推理模型版本：如果您的流程已建構於 Gemini Robotics-ER 之上，實用替代方案是使用先前版本（例如 ER 1.5），並評估您所需的特定改進（空間推理、多視角理解、儀表閱讀）是否對您的使用案例重要。
通用多模態模型搭配機器人工具：另一選擇是將通用多模態模型與獨立的機器人感知/控制模組結合，其中具身推理由多個元件組裝，而非使用專用機器人推理模型。
獨立視覺語言動作 (VLA) 方法：對於主要專注於動作生成的團隊，替代流程是更依賴 VLA 模型進行感知到動作轉換，同時使用外部邏輯處理成功偵測與規劃。
無專用機器人推理模型的工具使用代理框架：您可透過代理框架協調感知輸入與工具呼叫來建構代理行為，不過可能需額外工作以匹配此版本的具身推理重點（空間推理與成功偵測）。