open-codex-computer-use
open-codex-computer-use는 MCP 서버로 감싼 오픈소스 “Computer Use” 서비스로, AI 에이전트가 macOS·Linux·Windows에서 데스크톱 GUI 작업 실행 지원
open-codex-computer-use란?
Open Computer Use (open-codex-computer-use)은 MCP (Model Context Protocol) 서버로 감싼 오픈소스 “Computer Use” 서비스입니다. AI 에이전트나 MCP 클라이언트가 macOS, Linux, Windows에서 GUI 컴퓨터 작업을 실행할 수 있게 합니다.
이 프로젝트는 OpenAI의 Codex Computer Use에서 영감을 얻었습니다. 시스템 Accessibility API 위에 비침입적 “CUA” (컴퓨터 사용 자동화) 동작을 구현하고, MCP를 통해 이를 노출시켜 다양한 에이전트 클라이언트가 제어할 수 있게 합니다.
주요 기능
- 컴퓨터 작업을 위한 MCP 서버 래퍼: MCP 클라이언트가 GUI 작업을 요청할 수 있는 MCP 엔드포인트를 제공합니다.
- 크로스플랫폼 컴퓨터 사용 (macOS, Linux, Windows): 데스크톱 OS 전반에서 컴퓨터 자동화를 실행하도록 설계되었습니다.
- 접근성 기반 자동화: 비침입적 CUA 동작을 위한 기본 메커니즘으로 Accessibility를 사용합니다.
- CLI 스타일 “tool calling” 인터페이스: 앱 목록 출력, 앱 상태 조회 (예: 앱 이름 기준), 키 입력 등의 작업을 지원하는 명령어를 제공합니다.
- 온보딩 및 권한 확인: 필요한 접근 권한이 누락된 경우 온보딩 동작을 보여주고 권한을 확인하는
doctor명령어를 포함합니다.
open-codex-computer-use 사용 방법
-
머신에 설치하고 에이전트/클라이언트에서 사용 가능하게 만듭니다.
~/.codex/config.toml에 작성해 Codex에 설치하고 실행:open-computer-use install-codex-mcp- 또는 MCP JSON 설정으로 MCP 클라이언트에 수동 추가:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
-
필요한 권한 부여.
- macOS에서는 한 번 실행하고 Accessibility 및 Screen Recording 권한을 부여해야 합니다.
- Windows와 Linux에서는 추가 단계가 필요하지 않습니다.
-
MCP tool call을 통해 사용.
- 예: 앱 목록 출력
open-computer-use call list_apps - 예: TextEdit 앱 상태 조회
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - 예: 한 프로세스에서 여러 단계 실행 (
element_index상태 재사용, 성공 작업 간 sleep 포함):open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- 예: 앱 목록 출력
사용 사례
- AI 에이전트 (MCP 클라이언트 워크플로)로부터 로컬 데스크톱 앱 제어: 에이전트가 MCP tool call을 사용해 앱 상태를 확인하고 macOS/Linux/Windows에서 GUI 작업을 트리거합니다.
- 클라이언트 전반에서 “Codex 스타일” 컴퓨터 사용 재현: 리포지토리에서 “open-computer-use”가 Codex App 및 Codex CLI에서 Computer Use로 사용되며 공식 경험과 일치한다고 명시합니다.
- 권한 확인 및 문제 해결:
open-computer-use doctor를 사용해 필요한 접근 권한 누락 여부를 확인하고 온보딩 프롬프트를 이해합니다. - 짧은 GUI 상호작용 시퀀스 배치 처리: 한 프로세스에서 다단계 작업 시퀀스를 실행해 중간 상태 (예:
element_index)를 단계 간 재사용합니다. - 플랫폼별 테스트: 리포지토리에 Linux에서의 Computer Use 데모와 Gemini CLI와의 MCP 통합이 포함되어 있습니다.
자주 묻는 질문
-
여기서 “MCP로 감쌌다”는 무슨 뜻인가요? 프로젝트가 컴퓨터 사용 기능을 MCP 서버 인터페이스를 통해 노출시켜 MCP 클라이언트가 GUI 작업을 수행하는 tool을 호출할 수 있게 합니다.
-
권한 부여가 필요한가요? macOS에서는 한 번 실행하고 Accessibility 및 Screen Recording 권한을 부여해야 하며, Windows와 Linux에서는 이 단계가 필요하지 않습니다.
-
에이전트에 어떻게 연결하나요? 제공된 설치 명령으로 특정 클라이언트 (예: Codex)에 설치하거나
mcpServers아래 MCP JSON 설정으로 수동 구성할 수 있습니다. -
개별 tool 호출 또는 시퀀스 실행이 가능한가요? 네.
list_apps및get_app_state같은 단일 tool 호출과open-computer-use call --calls또는--calls-file를 통한 다단계 시퀀스 예제가 있습니다. -
설정 상태를 확인하는 내장 방법이 있나요? 네. 리포지토리에 권한 확인을 위한
open-computer-use doctor가 포함되어 있습니다.
대안
- open-browser-use (브라우저 중심 대안): 데스크톱 GUI 자동화가 아닌 브라우저 사용에 관심이 있다면 리포지토리에서 “open-browser-use”를 추천합니다.
- 컴퓨터/브라우저 자동화를 위한 다른 MCP 서버 통합: MCP를 이미 표준으로 사용 중이라면 지원 OS와 자동화 백엔드에 따라 GUI 자동화 tool을 노출하는 대체 MCP 서버를 확인하세요.
- 프로세스 내 자동화 라이브러리 (비-MCP): MCP 대신 단일 앱/에이전트 런타임 내에서 직접 데스크톱 자동화 API/라이브러리를 사용하는 설정도 있으며, MCP 네트워크 경계 대신 더 긴밀한 통합이 필요합니다.
대안
Codex Plugins
Codex Plugins로 스킬, 앱 통합, MCP 서버를 재사용 워크플로로 묶어 Gmail·Google Drive·Slack 같은 도구 접근을 확장하세요.
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.
Arduino VENTUNO Q
Arduino VENTUNO Q는 로보틱스용 엣지 AI 컴퓨터로, AI 추론 하드웨어와 마이크로컨트롤러 제어를 한 보드에 통합합니다. Arduino App Lab로 개발 워크플로 제공
Devin
Devin은 AI 코딩 에이전트로 코드 마이그레이션과 대규모 리팩터링을 서브태스크 병렬로 수행해요. 엔지니어 승인 하에 진행
Ably Chat
Ably Chat은 실시간 채팅 API와 SDK로 맞춤형 채팅 앱을 구축합니다. 반응, 존재감, 메시지 편집/삭제를 포함해 대규모 실시간에 최적화
Whirr
Whirr는 조용한 macOS 메뉴 막대 앱으로, Claude Code 에이전트 활동을 Mac 노치에 그대로 반영해 화면을 보지 않고도 한눈에 확인하세요.