UStackUStack
Gemini Robotics-ER 1.6 icon

Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 — модель рассуждений для робототехники: понимание пространства и нескольких ракурсов, чтение приборов. Доступно в Gemini API и Google AI Studio.

Gemini Robotics-ER 1.6

Что такое Gemini Robotics-ER 1.6?

Gemini Robotics-ER 1.6 — модель рассуждений, ориентированная на робототехнику, предназначенная для помощи физическим роботам в рассуждениях о реальном мире. Она нацелена на «воплощённые рассуждения», где робот связывает восприятие с действиями — например, интерпретирует увиденное, понимает пространственные отношения и решает, что делать дальше.

Модель представлена как высокоуровневый компонент рассуждений для роботов. Она выполняет задачи, нативно вызывая инструменты, включая Google Search, и работает с моделями vision-language-action (VLA) или другими пользовательскими функциями третьих сторон. Релиз подчёркивает улучшения пространственных рассуждений и понимания нескольких ракурсов, а также новую возможность чтения приборов, таких как манометры и смотровые стёкла.

Ключевые возможности

  • Улучшенные пространственные рассуждения: Повышает способности, такие как указывание, подсчёт и использование промежуточных «точек» для рассуждений в многоэтапных задачах.
  • Понимание нескольких ракурсов: Улучшает рассуждения по нескольким потокам камер (например, верхний и запястный виды), включая ситуации с перекрытиями или изменяющимися сценами.
  • Планирование задач и обнаружение успеха: Поддерживает планирование и ключевую функцию принятия решений — обнаружение успеха задачи, чтобы агент мог повторить или продолжить.
  • Вызов инструментов для выполнения задач: Нативно вызывает инструменты, такие как Google Search, для поиска информации во время выполнения.
  • Чтение приборов (новая возможность): Позволяет роботам читать сложные манометры и смотровые стёкла; представлено через кейс, обнаруженный в сотрудничестве с Boston Dynamics.

Как использовать Gemini Robotics-ER 1.6

  1. Доступ к модели через инструменты Gemini: Начните использовать Gemini Robotics-ER 1.6 через Gemini API или Google AI Studio (как указано в релизе).
  2. Настройка промптов для воплощённых рассуждений: Используйте примеры из общего Colab разработчиков, чтобы увидеть, как настроить модель и промптить её для задач воплощённых рассуждений.
  3. Подключение к возможностям робота: В типичной настройке модель рассуждений вызывает инструменты (включая Google Search) и координирует с моделями VLA или пользовательскими функциями третьих сторон для выполнения действий.

Кейсы использования

  • Чтение сложных индикаторов приборов: Робот наблюдает манометр или смотровое стекло и использует чтение приборов для извлечения данных в автономном процессе.
  • Подсчёт и указывание в загромождённых сценах: В камерном виде с множеством объектов (например, инструментов) модель определяет количество и выбирает точки для дальнейших рассуждений или расчётов.
  • Многоэтапные пространственные задачи с промежуточными точками: Для задач с логикой «от-до» или ограничениями (например, выбор объектов по пространственным требованиям) модель использует точки для разбиения на промежуточные шаги рассуждений.
  • Автономные циклы с обнаружением успеха: Робот пытается действие и использует обнаружение успеха, чтобы решить, повторить или перейти к следующему этапу плана.
  • Восприятие робототехники по нескольким камерам: В настройках с несколькими видами модель использует рассуждения по нескольким ракурсам для поддержания coherentного понимания происходящего во времени, даже при перекрытиях частей сцены.

Часто задаваемые вопросы

Gemini Robotics-ER 1.6 предназначена для разговорного чата?
Нет. Релиз позиционирует модель как компонент рассуждений для робототехники, сосредоточенный на воплощённых рассуждениях, планировании задач и обнаружении успеха для физических агентов.

Что значит «обнаружение успеха» в этом контексте?
Релиз описывает обнаружение успеха как движок решений для автономии: система использует его, чтобы решить, завершена ли задача или нужно повторить вместо продолжения.

Какие инструменты может вызывать модель?
Страница указывает, что она нативно вызывает инструменты вроде Google Search и работает с VLA или другими пользовательскими функциями третьих сторон.

Где разработчики могут получить доступ к модели?
Согласно релизу, доступна разработчикам через Gemini API и Google AI Studio.

Где взять примеры промптов и инструкции по настройке?
Релиз упоминает Colab разработчиков с примерами настройки модели и промптинга для задач воплощённых рассуждений.

Альтернативы

  • Более ранние версии моделей embodied-reasoning: Если ваш рабочий процесс уже построен вокруг Gemini Robotics-ER, практическая альтернатива — использование предыдущих релизов (например, ER 1.5) и оценка, важны ли для вашего случая использования конкретные улучшения (пространственное рассуждение, понимание нескольких ракурсов, чтение приборов).
  • Универсальные мультимодальные модели с инструментами для робототехники: Другой вариант — комбинация универсальной мультимодальной модели с отдельными модулями восприятия/управления для робототехники, где embodied reasoning собирается из нескольких компонентов вместо专用ной модели рассуждений для робототехники.
  • Автономные подходы vision-language-action (VLA): Для команд, сосредоточенных в основном на генерации действий, альтернативный рабочий процесс — большая зависимость от моделей VLA для perception-to-action с использованием внешней логики для обнаружения успеха и планирования.
  • Фреймворки агентов с использованием инструментов без专用ной модели рассуждений для робототехники: Вы можете построить агентное поведение, оркестрируя входы восприятия и вызовы инструментов в фреймворке агентов, хотя потребуется дополнительная работа, чтобы соответствовать фокусу релиза на embodied reasoning (пространственное рассуждение и обнаружение успеха).

Альтернативы

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

Arduino VENTUNO Q icon

Arduino VENTUNO Q

Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.

Devin icon

Devin

Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.

BenchSpan icon

BenchSpan

BenchSpan запускает AI agent бенчмарки параллельно, фиксирует результаты и ошибки в истории прогонов, помогает воспроизводить их по commit hash.

Edgee icon

Edgee

Edgee — edge-native AI gateway: сжимает промпты перед LLM-провайдерами и дает единый OpenAI-compatible API для маршрутизации 200+ моделей.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.