MolmoWeb
MolmoWeb은 스크린샷만으로 브라우저 작업을 수행하는 오픈 비주얼 웹 에이전트로, MolmoWebMix와 학습·평가 도구와 함께 공개됩니다.
MolmoWeb이란?
MolmoWeb은 스크린샷으로 현재 웹페이지를 해석하여 브라우저 작업을 자동화하는 오픈 비주얼 웹 에이전트입니다. 작업 지시를 받으면 Molmo 모델이 현재 화면을 관찰하고, 다음 단계를 결정하며, 클릭, 타이핑, 스크롤링 등의 브라우저 작업을 실행합니다.
셀프 호스팅 시스템(로컬 또는 클라우드 서비스)으로 설계되었으며, 모델 가중치, 웹 에이전트 학습 데이터셋(MolmoWebMix), 웹 에이전트 동작 재현·미세 조정·평가를 위한 평가 및 도구와 함께 공개됩니다.
주요 기능
- Molmo 2 멀티모달 모델 패밀리(4B 및 8B 크기) 기반 오픈 비주얼 웹 에이전트로, 실험을 위한 가중치와 학습 관련 자산 제공.
- 스크린샷 기반 브라우저 제어 루프: 에이전트가 작업 지시, 현재 브라우저 뷰 스크린샷, 최근 작업 기록을 받아 다음 브라우저 작업을 출력.
- 시각 인터페이스에 맞춘 브라우저 작업: URL 이동, 화면 좌표 클릭, 필드 타이핑, 스크롤링, 탭 열기/전환, 사용자에게 메시지 전송 지원.
- MolmoWeb 저장소에 공개된 오픈 학습 및 평가 도구, 다음 포함:
- 특정 애플리케이션에 MolmoWeb을 맞춤화하는 학습 코드.
- 인간 작업 데모를 기록하고 해당 데이터로 미세 조정하는 어노테이션 도구.
- 탐색 벤치마크(WebVoyager, Online-Mind2Web, WebTailBench, Deepshop)를 위한 평가 하네스.
- 데이터 및 데이터셋 공개 지원:
- 웹 에이전트 학습을 위한 MolmoWebMix 데이터셋.
- 도구 내 LLM-/VLM 기반 에이전트(AxTree/스크린샷 입력 사용)를 활용한 웹 브라우징 데이터 생성 파이프라인.
MolmoWeb 사용 방법
- 공개된 자산과 도구(학습 코드, 평가 하네스, 업데이트에 설명된 기타 구성 요소 포함)를 얻기 위해 MolmoWeb GitHub 저장소에서 시작.
- (도메인별 동작을 원할 경우) 어노테이션 수집 도구로 인간 작업 데모를 기록한 후, 제공된 학습 코드로 MolmoWeb 미세 조정.
- 포함된 평가 하네스로 지원 탐색 벤치마크에 대한 에이전트 실행 평가.
- 대화형 검사 시 MolmoWeb 데모의 클라이언트 측 코드로 작업 입력 후 에이전트의 실시간 웹사이트 탐색 관찰.
사용 사례
- 웹 에이전트 성능 재현 및 평가: 평가 하네스로 WebVoyager, Online-Mind2Web, WebTailBench, Deepshop 등의 일반 탐색 벤치마크에서 MolmoWeb 실행.
- 인간 데모로 새 도메인 미세 조정: 어노테이션 도구로 웹사이트나 워크플로에 맞는 작업 데모 기록 후 수집 데이터로 MolmoWeb 미세 조정.
- 맞춤 웹 에이전트 UI 구축: 공개된 클라이언트 측 데모 코드를 시작점으로 에이전트에 작업 전송 및 브라우저 탐색 보기 인터페이스 생성.
- 웹 브라우징 학습 데이터 생성: 포함된 합성 데이터 생성 파이프라인으로 LLM- 및 VLM 기반 에이전트(AxTree/스크린샷 입력 활용)를 사용한 브라우징 궤적 생성.
- 오픈 웹 에이전트 파이프라인 엔드투엔드 연구: 데이터셋(MolmoWebMix), 학습 코드, 평가 도구 조합으로 스택의 여러 부분(데이터 수집, 학습, 벤치마킹) 검사 및 개선.
자주 묻는 질문
Hugging Face에 공개된 초기 학습 데이터셋이 업데이트되었나요?
네. 페이지에 이전에 Hugging Face에서 학습 데이터를 다운로드했다면 재다운로드해야 하며, 초기 공개 이후 데이터셋이 업데이트되었습니다.
MolmoWeb이 브라우저에서 수행할 수 있는 작업은 무엇인가요?
URL 이동, 화면 좌표 클릭, 텍스트 타이핑, 스크롤링, 브라우저 탭 열기/전환, 사용자에게 메시지 전송을 지원합니다.
MolmoWeb은 다음 작업을 어떻게 결정하나요?
각 단계에서 작업 지시, 현재 브라우저 뷰 스크린샷, 최근 작업 기록을 사용해 다음 브라우저 작업을 생성합니다.
MolmoWebMix란 무엇인가요?
웹 에이전트 학습을 위한 대규모·다양한 데이터셋으로, 완전한 학습 및 평가 파이프라인과 함께 공개되었습니다.
평가 하네스에는 무엇이 포함되나요?
MolmoWeb 같은 웹 에이전트를 WebVoyager, Online-Mind2Web, WebTailBench, Deepshop 등의 탐색 벤치마크로 평가하는 도구입니다.
대안
- 독점 웹 에이전트 플랫폼: 턴키 자동화를 제공할 수 있지만, 일반적으로 비공개 학습 데이터와 방법에 의존하며, MolmoWeb의 오픈 모델/데이터/코드 접근 방식과 다릅니다.
- 다른 멀티모달 모델로 구축된 스크린샷 기반 브라우저 자동화 에이전트: 시각 입력을 사용해 브라우저 작업을 수행할 수 있지만, 사용 가능한 가중치, 데이터셋, 평가 도구에서 차이가 있을 수 있습니다.
- 범용 브라우저 자동화 프레임워크(규칙 기반 또는 스크립트 기반): 시연이나 벤치마크로부터 학습하지 않고 특정 워크플로를 자동화할 수 있지만, 일반적으로 더 많은 사전 정의 로직이 필요합니다.
- 구조화된 페이지 표현(HTML/접근성 트리)에 중점을 둔 맞춤 에이전트 파이프라인: 스크린샷 대신 구조화된 표현을 사용해 지각과 작업 연결 방식을 변경합니다.
대안
AgentMail
AgentMail은 AI 에이전트를 위한 이메일 인박스 API로, REST로 메일 생성·발송·수신·검색해 양방향 대화를 구현합니다.
LobeHub
LobeHub는 AI 에이전트 팀원을 구축, 배포 및 협업하기 위해 설계된 오픈 소스 플랫폼으로, 범용 LLM 웹 UI 역할을 합니다.
Codex Plugins
Codex Plugins로 스킬, 앱 통합, MCP 서버를 재사용 워크플로로 묶어 Gmail·Google Drive·Slack 같은 도구 접근을 확장하세요.
Tavus
Tavus는 실시간 대면 상호작용을 위해 보고 듣고 반응하는 AI를 구축합니다. 맞춤 비디오 에이전트·디지털 트윈·AI 컴패니언을 API로 배포하세요.
HiringPartner.ai
HiringPartner.ai는 AI 에이전트가 24시간 내내 후보자를 소싱하고, 선별하고, 통화 및 인터뷰까지 진행하는 자율형 채용 플랫폼으로, 수 주 걸리던 채용 기간을 최소 48시간까지 단축합니다.
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.