UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use는 MCP 서버로 감싼 오픈소스 “Computer Use” 서비스로, AI 에이전트가 macOS·Linux·Windows에서 데스크톱 GUI 작업 실행 지원

open-codex-computer-use

open-codex-computer-use란?

Open Computer Use (open-codex-computer-use)은 MCP (Model Context Protocol) 서버로 감싼 오픈소스 “Computer Use” 서비스입니다. AI 에이전트나 MCP 클라이언트가 macOS, Linux, Windows에서 GUI 컴퓨터 작업을 실행할 수 있게 합니다.

이 프로젝트는 OpenAI의 Codex Computer Use에서 영감을 얻었습니다. 시스템 Accessibility API 위에 비침입적 “CUA” (컴퓨터 사용 자동화) 동작을 구현하고, MCP를 통해 이를 노출시켜 다양한 에이전트 클라이언트가 제어할 수 있게 합니다.

주요 기능

  • 컴퓨터 작업을 위한 MCP 서버 래퍼: MCP 클라이언트가 GUI 작업을 요청할 수 있는 MCP 엔드포인트를 제공합니다.
  • 크로스플랫폼 컴퓨터 사용 (macOS, Linux, Windows): 데스크톱 OS 전반에서 컴퓨터 자동화를 실행하도록 설계되었습니다.
  • 접근성 기반 자동화: 비침입적 CUA 동작을 위한 기본 메커니즘으로 Accessibility를 사용합니다.
  • CLI 스타일 “tool calling” 인터페이스: 앱 목록 출력, 앱 상태 조회 (예: 앱 이름 기준), 키 입력 등의 작업을 지원하는 명령어를 제공합니다.
  • 온보딩 및 권한 확인: 필요한 접근 권한이 누락된 경우 온보딩 동작을 보여주고 권한을 확인하는 doctor 명령어를 포함합니다.

open-codex-computer-use 사용 방법

  1. 머신에 설치하고 에이전트/클라이언트에서 사용 가능하게 만듭니다.

    • ~/.codex/config.toml에 작성해 Codex에 설치하고 실행:
      open-computer-use install-codex-mcp
      
    • 또는 MCP JSON 설정으로 MCP 클라이언트에 수동 추가:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. 필요한 권한 부여.

    • macOS에서는 한 번 실행하고 AccessibilityScreen Recording 권한을 부여해야 합니다.
    • Windows와 Linux에서는 추가 단계가 필요하지 않습니다.
  3. MCP tool call을 통해 사용.

    • 예: 앱 목록 출력
      open-computer-use call list_apps
      
    • 예: TextEdit 앱 상태 조회
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • 예: 한 프로세스에서 여러 단계 실행 (element_index 상태 재사용, 성공 작업 간 sleep 포함):
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

사용 사례

  • AI 에이전트 (MCP 클라이언트 워크플로)로부터 로컬 데스크톱 앱 제어: 에이전트가 MCP tool call을 사용해 앱 상태를 확인하고 macOS/Linux/Windows에서 GUI 작업을 트리거합니다.
  • 클라이언트 전반에서 “Codex 스타일” 컴퓨터 사용 재현: 리포지토리에서 “open-computer-use”가 Codex App 및 Codex CLI에서 Computer Use로 사용되며 공식 경험과 일치한다고 명시합니다.
  • 권한 확인 및 문제 해결: open-computer-use doctor를 사용해 필요한 접근 권한 누락 여부를 확인하고 온보딩 프롬프트를 이해합니다.
  • 짧은 GUI 상호작용 시퀀스 배치 처리: 한 프로세스에서 다단계 작업 시퀀스를 실행해 중간 상태 (예: element_index)를 단계 간 재사용합니다.
  • 플랫폼별 테스트: 리포지토리에 Linux에서의 Computer Use 데모와 Gemini CLI와의 MCP 통합이 포함되어 있습니다.

자주 묻는 질문

  • 여기서 “MCP로 감쌌다”는 무슨 뜻인가요? 프로젝트가 컴퓨터 사용 기능을 MCP 서버 인터페이스를 통해 노출시켜 MCP 클라이언트가 GUI 작업을 수행하는 tool을 호출할 수 있게 합니다.

  • 권한 부여가 필요한가요? macOS에서는 한 번 실행하고 AccessibilityScreen Recording 권한을 부여해야 하며, Windows와 Linux에서는 이 단계가 필요하지 않습니다.

  • 에이전트에 어떻게 연결하나요? 제공된 설치 명령으로 특정 클라이언트 (예: Codex)에 설치하거나 mcpServers 아래 MCP JSON 설정으로 수동 구성할 수 있습니다.

  • 개별 tool 호출 또는 시퀀스 실행이 가능한가요? 네. list_appsget_app_state 같은 단일 tool 호출과 open-computer-use call --calls 또는 --calls-file를 통한 다단계 시퀀스 예제가 있습니다.

  • 설정 상태를 확인하는 내장 방법이 있나요? 네. 리포지토리에 권한 확인을 위한 open-computer-use doctor가 포함되어 있습니다.

대안

  • open-browser-use (브라우저 중심 대안): 데스크톱 GUI 자동화가 아닌 브라우저 사용에 관심이 있다면 리포지토리에서 “open-browser-use”를 추천합니다.
  • 컴퓨터/브라우저 자동화를 위한 다른 MCP 서버 통합: MCP를 이미 표준으로 사용 중이라면 지원 OS와 자동화 백엔드에 따라 GUI 자동화 tool을 노출하는 대체 MCP 서버를 확인하세요.
  • 프로세스 내 자동화 라이브러리 (비-MCP): MCP 대신 단일 앱/에이전트 런타임 내에서 직접 데스크톱 자동화 API/라이브러리를 사용하는 설정도 있으며, MCP 네트워크 경계 대신 더 긴밀한 통합이 필요합니다.