UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6は、実世界のためのロボット推論モデル。空間・複数視点理解と計器読み取りをGemini APIやGoogle AI Studioで提供。

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6とは?

Gemini Robotics-ER 1.6は、現実世界を推論するためのロボット向け推論モデルです。「具現化推論」を対象とし、ロボットが知覚を行動に結びつける—視覚情報の解釈、空間関係の理解、次の行動決定など—ことを支援します。

このモデルは、ロボット向けの高レベル推論コンポーネントとして位置づけられています。Google Searchを含むツールをネイティブに呼び出してタスクを実行でき、vision-language-action (VLA) モデルやサードパーティのユーザー定義関数と連携可能です。リリースでは空間推論と複数視点理解の改善、およびゲージやサイトグラスなどの計器読み取りという新機能が強調されています。

主な機能

  • 空間推論の強化: 指差し、カウント、多段階タスクのための途中「ポイント」を用いた推論能力を向上。
  • 複数視点理解: 複数カメラストリーム(例: 上部ビューと手首ビュー)での推論を進化させ、遮蔽やシーン変化を含む状況に対応。
  • タスク計画と成功検知: 計画を支援し、核心的な決定機能—タスク成功の検知—を提供し、エージェントが再試行か進行かを選択可能。
  • タスク実行のためのツール呼び出し: 実行中に必要な情報を取得するため、Google Searchなどのツールをネイティブに呼び出し。
  • 計器読み取り(新機能): 複雑なゲージやサイトグラスを読み取る能力をロボットに付与。Boston Dynamicsとの共同で発見されたユースケースから導入。

Gemini Robotics-ER 1.6の使い方

  1. Geminiツール経由でモデルにアクセス: リリースの通り、Gemini APIまたはGoogle AI Studio経由でGemini Robotics-ER 1.6の使用を開始。
  2. 具現化推論向けプロンプトを設定: 共有の開発者向けColab例を参照し、モデル設定と具現化推論タスク向けプロンプトを構成。
  3. ロボット機能と接続: 典型的な設定では、推論モデルがツール(Google Search含む)を呼び出し、VLAモデルやサードパーティユーザー定義関数と連携して行動を実行。

ユースケース

  • 複雑な計器ディスプレイの読み取り: ロボットがゲージやサイトグラスを観察し、計器読み取りで関連情報を抽出し、自動ワークフローの一部として活用。
  • 雑然としたシーンでのカウントと指差し: 複数オブジェクト(例: ツール)を含むカメラビューで、カウントを特定し、さらなる推論や計算を導くポイントを選択。
  • 途中ポイントを用いた多段階空間タスク: 「from-to」移動論理や制約(例: 空間要件を満たすオブジェクト選択)が必要なタスクで、ポイントを使ってタスクを途中推論ステップに分解。
  • 成功検知付き自律ループ: ロボットが行動を試行し、成功検知で再試行か計画の次の段階かを決定。
  • 複数カメラでのロボット知覚: 複数ビュー設定で、時間経過やシーン部分の遮蔽時でも、複数視点推論で一貫した状況理解を維持。

FAQ

Gemini Robotics-ER 1.6は会話チャット向けですか?
いいえ。リリースでは、具現化推論、タスク計画、物理エージェント向け成功検知に特化した推論優先のロボットコンポーネントとして位置づけられています。

この文脈での「成功検知」とは?
リリースでは、自律性の決定エンジンとして記述: タスク完了か、再試行か進行かを決定。

モデルが呼び出せるツールは?
ページではGoogle Searchなどのツールをネイティブ呼び出し可能で、VLAsや他のサードパーティユーザー定義関数とも連携可能と記載。

開発者はどこでモデルにアクセス可能?
リリースによると、Gemini APIおよびGoogle AI Studio経由で開発者向けに提供。

例プロンプトや設定ガイダンスはどこで入手?
リリースで、モデル設定と具現化推論タスク向けプロンプトの例を含む開発者向けColabを言及。

代替案

  • 以前のembodied-reasoningモデルバージョン: ワークフローがすでにGemini Robotics-ERを中心に構築されている場合、実用的な代替は以前のリリース(例: ER 1.5)を使用し、必要な特定の改善(空間推論、複数視点理解、計器読み取り)がユースケースに重要かを評価することです。
  • ロボットツール付き汎用マルチモーダルモデル: もう一つの選択肢は、汎用マルチモーダルモデルを別々のロボット知覚/制御モジュールと組み合わせることです。ここでは、embodied reasoningを専用のロボット推論モデルではなく複数のコンポーネントから組み立てます。
  • 独立したvision-language-action (VLA) アプローチ: アクション生成に主に焦点を当てたチームの場合、代替ワークフローは知覚からアクションへのVLAモデルに強く依存し、成功検知と計画には外部ロジックを使用することです。
  • 専用のロボット推論モデルなしのツール使用エージェントフレームワーク: エージェントフレームワークで知覚入力とツール呼び出しを調整することでエージェント動作を構築できますが、リリースのembodied reasoning焦点(空間推論と成功検知)に匹敵するには追加作業が必要になる場合があります。
Gemini Robotics-ER 1.6 | UStack