MolmoWeb

MolmoWeb이란?

MolmoWeb은 스크린샷으로 현재 웹페이지를 해석하여 브라우저 작업을 자동화하는 오픈 비주얼 웹 에이전트입니다. 작업 지시를 받으면 Molmo 모델이 현재 화면을 관찰하고, 다음 단계를 결정하며, 클릭, 타이핑, 스크롤링 등의 브라우저 작업을 실행합니다.

셀프 호스팅 시스템(로컬 또는 클라우드 서비스)으로 설계되었으며, 모델 가중치, 웹 에이전트 학습 데이터셋(MolmoWebMix), 웹 에이전트 동작 재현·미세 조정·평가를 위한 평가 및 도구와 함께 공개됩니다.

Molmo 2 멀티모달 모델 패밀리(4B 및 8B 크기) 기반 오픈 비주얼 웹 에이전트로, 실험을 위한 가중치와 학습 관련 자산 제공.
스크린샷 기반 브라우저 제어 루프: 에이전트가 작업 지시, 현재 브라우저 뷰 스크린샷, 최근 작업 기록을 받아 다음 브라우저 작업을 출력.
시각 인터페이스에 맞춘 브라우저 작업: URL 이동, 화면 좌표 클릭, 필드 타이핑, 스크롤링, 탭 열기/전환, 사용자에게 메시지 전송 지원.
MolmoWeb 저장소에 공개된 오픈 학습 및 평가 도구, 다음 포함:
- 특정 애플리케이션에 MolmoWeb을 맞춤화하는 학습 코드.
- 인간 작업 데모를 기록하고 해당 데이터로 미세 조정하는 어노테이션 도구.
- 탐색 벤치마크(WebVoyager, Online-Mind2Web, WebTailBench, Deepshop)를 위한 평가 하네스.
데이터 및 데이터셋 공개 지원:
- 웹 에이전트 학습을 위한 MolmoWebMix 데이터셋.
- 도구 내 LLM-/VLM 기반 에이전트(AxTree/스크린샷 입력 사용)를 활용한 웹 브라우징 데이터 생성 파이프라인.

공개된 자산과 도구(학습 코드, 평가 하네스, 업데이트에 설명된 기타 구성 요소 포함)를 얻기 위해 MolmoWeb GitHub 저장소에서 시작.
(도메인별 동작을 원할 경우) 어노테이션 수집 도구로 인간 작업 데모를 기록한 후, 제공된 학습 코드로 MolmoWeb 미세 조정.
포함된 평가 하네스로 지원 탐색 벤치마크에 대한 에이전트 실행 평가.
대화형 검사 시 MolmoWeb 데모의 클라이언트 측 코드로 작업 입력 후 에이전트의 실시간 웹사이트 탐색 관찰.

웹 에이전트 성능 재현 및 평가: 평가 하네스로 WebVoyager, Online-Mind2Web, WebTailBench, Deepshop 등의 일반 탐색 벤치마크에서 MolmoWeb 실행.
인간 데모로 새 도메인 미세 조정: 어노테이션 도구로 웹사이트나 워크플로에 맞는 작업 데모 기록 후 수집 데이터로 MolmoWeb 미세 조정.
맞춤 웹 에이전트 UI 구축: 공개된 클라이언트 측 데모 코드를 시작점으로 에이전트에 작업 전송 및 브라우저 탐색 보기 인터페이스 생성.
웹 브라우징 학습 데이터 생성: 포함된 합성 데이터 생성 파이프라인으로 LLM- 및 VLM 기반 에이전트(AxTree/스크린샷 입력 활용)를 사용한 브라우징 궤적 생성.
오픈 웹 에이전트 파이프라인 엔드투엔드 연구: 데이터셋(MolmoWebMix), 학습 코드, 평가 도구 조합으로 스택의 여러 부분(데이터 수집, 학습, 벤치마킹) 검사 및 개선.

Hugging Face에 공개된 초기 학습 데이터셋이 업데이트되었나요?
네. 페이지에 이전에 Hugging Face에서 학습 데이터를 다운로드했다면 재다운로드해야 하며, 초기 공개 이후 데이터셋이 업데이트되었습니다.

MolmoWeb이 브라우저에서 수행할 수 있는 작업은 무엇인가요?
URL 이동, 화면 좌표 클릭, 텍스트 타이핑, 스크롤링, 브라우저 탭 열기/전환, 사용자에게 메시지 전송을 지원합니다.

MolmoWeb은 다음 작업을 어떻게 결정하나요?
각 단계에서 작업 지시, 현재 브라우저 뷰 스크린샷, 최근 작업 기록을 사용해 다음 브라우저 작업을 생성합니다.

MolmoWebMix란 무엇인가요?
웹 에이전트 학습을 위한 대규모·다양한 데이터셋으로, 완전한 학습 및 평가 파이프라인과 함께 공개되었습니다.

평가 하네스에는 무엇이 포함되나요?
MolmoWeb 같은 웹 에이전트를 WebVoyager, Online-Mind2Web, WebTailBench, Deepshop 등의 탐색 벤치마크로 평가하는 도구입니다.

독점 웹 에이전트 플랫폼: 턴키 자동화를 제공할 수 있지만, 일반적으로 비공개 학습 데이터와 방법에 의존하며, MolmoWeb의 오픈 모델/데이터/코드 접근 방식과 다릅니다.
다른 멀티모달 모델로 구축된 스크린샷 기반 브라우저 자동화 에이전트: 시각 입력을 사용해 브라우저 작업을 수행할 수 있지만, 사용 가능한 가중치, 데이터셋, 평가 도구에서 차이가 있을 수 있습니다.
범용 브라우저 자동화 프레임워크(규칙 기반 또는 스크립트 기반): 시연이나 벤치마크로부터 학습하지 않고 특정 워크플로를 자동화할 수 있지만, 일반적으로 더 많은 사전 정의 로직이 필요합니다.
구조화된 페이지 표현(HTML/접근성 트리)에 중점을 둔 맞춤 에이전트 파이프라인: 스크린샷 대신 구조화된 표현을 사용해 지각과 작업 연결 방식을 변경합니다.