Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6이란?

Gemini Robotics-ER 1.6은 실제 세계에 대한 추론을 돕도록 설계된 로봇 중심 추론 모델입니다. 로봇이 지각을 행동과 연결하는 “embodied reasoning”을 목표로 하며, 보는 것을 해석하고 공간 관계를 이해하며 다음 행동을 결정하는 등의 작업을 수행합니다.

이 모델은 로봇의 고급 추론 구성 요소로 제시됩니다. Google Search를 포함한 도구를 네이티브로 호출하여 작업을 실행할 수 있으며, vision-language-action (VLA) 모델이나 타사 사용자 정의 함수와 함께 작동합니다. 이번 릴리스는 공간 추론 및 멀티뷰 이해 개선과 게이지 및 사이트 글라스 같은 계기 판독이라는 새로운 기능을 강조합니다.

주요 기능

향상된 공간 추론: 지시, 카운팅, 다단계 작업을 위한 중간 “포인트”를 사용한 추론 능력을 개선합니다.
멀티뷰 이해: 오버헤드 및 손목 뷰 등 여러 카메라 스트림에 걸친 추론을 발전시키며, 가림이나 변화하는 장면 상황을 포함합니다.
작업 계획 및 성공 감지: 계획을 지원하고 핵심 결정 기능—작업 성공 여부를 감지하여 에이전트가 재시도 또는 진행을 선택할 수 있게 합니다.
작업 실행을 위한 도구 호출: 실행 중 필요한 정보를 찾기 위해 Google Search 같은 도구를 네이티브로 호출합니다.
계기 판독 (신규 기능): 복잡한 게이지와 사이트 글라스를 읽을 수 있게 하며, Boston Dynamics와의 협업에서 발견된 사용 사례를 통해 도입되었습니다.

Gemini Robotics-ER 1.6 사용 방법

Gemini 도구를 통해 모델 접근: 릴리스에 명시된 대로 Gemini API 또는 Google AI Studio를 통해 Gemini Robotics-ER 1.6 사용을 시작하세요.
embodied reasoning을 위한 프롬프트 구성: 공유된 개발자 Colab 예제를 통해 모델 구성 및 embodied reasoning 작업 프롬프트 방법을 확인하세요.
로봇 기능 연결: 일반적인 설정에서 추론 모델은 도구(Google Search 포함)를 호출하고 VLA 모델이나 타사 사용자 정의 함수와 조정하여 행동을 수행합니다.

사용 사례

복잡한 계기 디스플레이 판독: 로봇이 게이지나 사이트 글라스를 관찰하고 계기 판독을 통해 자율 워크플로의 일부로 관련 정보를 추출합니다.
혼잡한 장면에서의 카운팅 및 지시: 여러 객체(예: 도구)가 포함된 카메라 뷰에서 모델이 개수를 식별하고 추가 추론이나 계산을 안내하는 포인트를 선택합니다.
중간 포인트를 사용한 다단계 공간 작업: “from-to” 이동 로직이나 제약 조건(예: 공간 요구사항을 만족하는 객체 선택)이 필요한 작업에서 포인트를 사용하여 작업을 중간 추론 단계로 분해합니다.
성공 감지를 통한 자율 루프: 로봇이 행동을 시도하고 성공 감지를 사용하여 재시도할지 계획의 다음 단계로 진행할지 결정합니다.
다중 카메라 로봇 지각: 여러 뷰 설정에서 모델이 멀티뷰 추론을 사용하여 장면 일부가 가려져도 시간에 걸쳐 일관된 이해를 유지합니다.

자주 묻는 질문

Gemini Robotics-ER 1.6은 대화형 채팅용인가요?
아니요. 릴리스는 이 모델을 물리적 에이전트를 위한 embodied reasoning, 작업 계획, 성공 감지에 초점을 맞춘 추론 우선 로봇 구성 요소로 설명합니다.

이 맥락에서 “성공 감지”란 무엇인가요?
릴리스는 성공 감지를 자율성을 위한 결정 엔진으로 설명합니다: 시스템이 작업 완료 여부 또는 재시도 대 진행을 결정하는 데 사용합니다.

모델이 호출할 수 있는 도구는 무엇인가요?
페이지에 따르면 Google Search 같은 도구를 네이티브로 호출할 수 있으며 VLAs나 다른 타사 사용자 정의 함수와도 작동합니다.

개발자는 어디서 모델을 접근할 수 있나요?
릴리스에 따르면 Gemini API와 Google AI Studio를 통해 개발자에게 제공됩니다.

예제 프롬프트와 구성 지침은 어떻게 얻나요?
릴리스는 모델 구성 및 embodied reasoning 작업 프롬프트를 위한 예제가 포함된 개발자 Colab을 언급합니다.

대안

이전 embodied-reasoning 모델 버전: 워크플로가 이미 Gemini Robotics-ER 중심이라면, 이전 릴리스(예: ER 1.5)를 사용하고 필요한 특정 개선 사항(공간 추론, 멀티뷰 이해, 계기 판독)이 사용 사례에 중요한지 평가하는 것이 실용적인 대안입니다.
로보틱스 도구를 갖춘 범용 멀티모달 모델: 범용 멀티모달 모델에 별도의 로보틱스 지각/제어 모듈을 결합하는 것이 또 다른 옵션으로, 전용 로보틱스 추론 모델 대신 여러 구성 요소로 embodied reasoning을 조합합니다.
독립형 vision-language-action (VLA) 접근법: 주로 액션 생성에 집중하는 팀의 경우, 지각-액션에 VLA 모델을 더 많이 의존하고 성공 탐지 및 계획에는 외부 로직을 사용하는 대안 워크플로입니다.
전용 로보틱스 추론 모델이 없는 도구 사용 에이전트 프레임워크: 에이전트 프레임워크에서 지각 입력과 도구 호출을 조율해 에이전트 행동을 구축할 수 있지만, 릴리스의 embodied reasoning 초점(공간 추론 및 성공 탐지)을 맞추려면 추가 작업이 필요할 수 있습니다.