UStackUStack
MolmoWeb icon

MolmoWeb

MolmoWeb — открытый визуальный веб-агент: выполняет задачи в браузере по одним скриншотам. Выпуск с MolmoWebMix и инструментами обучения/оценки.

MolmoWeb

Что такое MolmoWeb?

MolmoWeb — открытый визуальный веб-агент, который автоматизирует задачи в браузере, интерпретируя живую веб-страницу по скриншотам. Получив инструкцию по задаче, модель Molmo анализирует текущий экран, определяет следующий шаг и выполняет действия в браузере: клики, ввод текста или прокрутку.

Система предназначена для самостоятельного хостинга (локально или в облаке) и выпущена вместе с весами моделей, датасетом для обучения веб-агентов (MolmoWebMix), а также инструментами оценки и доработки для воспроизведения, тонкой настройки и анализа поведения веб-агентов.

Ключевые возможности

  • Открытый визуальный веб-агент на базе семейства мультимодальных моделей Molmo 2 (доступны размеры 4B и 8B) с весами и активами для обучения и экспериментов.
  • Цикл управления браузером на основе скриншотов: агент получает инструкцию по задаче, скриншот текущего вида браузера и историю недавних действий, затем выдает следующее действие в браузере.
  • Действия браузера, соответствующие визуальным интерфейсам: поддержка перехода по URL, кликов по координатам экрана, ввода в поля, прокрутки, открытия/переключения вкладок и отправки сообщений пользователю.
  • Открытые инструменты обучения и оценки в репозитории MolmoWeb, включая:
    • Код обучения для настройки MolmoWeb под конкретные приложения.
    • Инструмент аннотации для записи демонстраций задач человеком и тонкой настройки на этих данных.
    • Тестовый harness для бенчмарков навигации (WebVoyager, Online-Mind2Web, WebTailBench, Deepshop).
  • Поддержка релиза данных и датасетов:
    • Датасет MolmoWebMix для обучения веб-агентов.
    • Пайплайн генерации синтетических данных в инструментах, который создает данные веб-серфинга с использованием агентов на базе LLM-/VLM с входом AxTree/скриншот.

Как использовать MolmoWeb

  1. Начните с репозитория MolmoWeb на GitHub, чтобы получить выпущенные активы и инструменты, включая код обучения, тестовый harness и другие компоненты, описанные в обновлении.
  2. Используйте инструмент сбора аннотаций (для доменно-специфического поведения), чтобы записать демонстрации задач человеком, затем донастройте MolmoWeb с помощью предоставленного кода обучения.
  3. Оцените запуски вашего агента с помощью включенного тестового harness на поддерживаемых бенчмарках навигации.
  4. Для интерактивной проверки используйте клиентский код демо MolmoWeb, чтобы ввести задачу и наблюдать, как агент навигирует по сайтам в реальном времени.

Сценарии использования

  • Воспроизведение и оценка производительности веб-агентов: запустите MolmoWeb с тестовым harness на распространенных бенчмарках навигации, таких как WebVoyager, Online-Mind2Web, WebTailBench или Deepshop.
  • Тонкая настройка под новый домен с демонстрациями человека: используйте инструмент аннотации для записи релевантных задач для вашего сайта или workflow, затем донастройте MolmoWeb на собранных данных.
  • Создание кастомного UI для веб-агента: возьмите выпущенный клиентский код демо как основу для своего интерфейса отправки задач агенту и просмотра навигации в браузере.
  • Генерация данных для обучения веб-серфингу: используйте включенный пайплайн синтетической генерации данных для создания траекторий серфинга с агентами на базе LLM- и VLM с входом AxTree/скриншот.
  • Исследование открытых пайплайнов веб-агентов end-to-end: используйте комбинацию датасета (MolmoWebMix), кода обучения и инструментов оценки для анализа и улучшения частей стека (сбор данных, обучение, бенчмаркинг).

FAQ

Обновили ли датасет начального обучения на Hugging Face?
Да. На странице указано, что если вы ранее скачивали данные обучения с Hugging Face, перескачайте их, поскольку датасеты обновлены после初ального релиза.

Какие действия MolmoWeb может выполнять в браузере?
Источник описывает поддержку перехода по URL, кликов по координатам экрана, ввода текста, прокрутки, открытия или переключения вкладок браузера и отправки сообщения пользователю.

Как MolmoWeb решает, что делать дальше?
На каждом шаге он использует инструкцию по задаче, скриншот текущего вида браузера и историю недавних действий для генерации следующего действия в браузере.

Что такое MolmoWebMix?
MolmoWebMix описан как крупный и разнообразный датасет для обучения веб-агентов, выпущенный вместе с полным пайплайном обучения и оценки.

Что включает тестовый harness?
Тестовый harness описан как инструменты для оценки веб-агентов вроде MolmoWeb на бенчмарках навигации, включая WebVoyager, Online-Mind2Web, WebTailBench и Deepshop.

Альтернативы

  • Проприетарные платформы веб-агентов: они могут предлагать готовую автоматизацию, но обычно полагаются на закрытые данные и методы обучения, в отличие от открытого подхода MolmoWeb с моделью/данными/кодом.
  • Агенты автоматизации браузера на основе скриншотов, построенные на других мультимодальных моделях: они тоже используют визуальные входы для действий в браузере, но могут отличаться доступными весами, датасетами и инструментами оценки.
  • Универсальные фреймворки автоматизации браузера (на основе правил или скриптов): они автоматизируют конкретные рабочие процессы без обучения на демонстрациях или бенчмарках, но обычно требуют больше предопределённой логики.
  • Кастомные пайплайны агентов, ориентированные на структурированные представления страниц (HTML/деревья доступности): вместо скриншотов они используют структурированные представления, что меняет связь между восприятием и действием.

Альтернативы

AgentMail icon

AgentMail

AgentMail — API почтового ящика для AI-агентов: создавайте, отправляйте, принимайте и ищите письма через REST для двусторонних диалогов.

LobeHub icon

LobeHub

LobeHub — это платформа с открытым исходным кодом, предназначенная для создания, развертывания и совместной работы с командами ИИ-агентов, функционирующая как универсальный веб-интерфейс для LLM.

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

Tavus icon

Tavus

Tavus создает AI для живого общения лицом к лицу: видит, слышит и отвечает в реальном времени. Доступны видео-агенты и цифровые двойники через API.

HiringPartner.ai icon

HiringPartner.ai

HiringPartner.ai — это автономная платформа для рекрутинга с агентами ИИ, которые круглосуточно ищут, отбирают, звонят и проводят интервью с кандидатами, сокращая время закрытия вакансий с недель до 48 часов.

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

MolmoWeb | UStack