UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use: serviço open-source “Computer Use” em formato MCP, para agentes executarem ações de GUI na área de trabalho no macOS, Linux e Windows.

open-codex-computer-use

O que é open-codex-computer-use?

Open Computer Use (open-codex-computer-use) é um serviço open-source “Computer Use” encapsulado como um servidor MCP (Model Context Protocol). Ele permite que um agente de IA ou qualquer cliente MCP execute ações de GUI no computador em macOS, Linux e Windows.

O projeto foi inspirado no OpenAI’s Codex Computer Use. Ele implementa comportamento “CUA” (automação de uso de computador) não intrusivo sobre APIs de Acessibilidade do sistema, expondo essa capacidade via MCP para que diferentes clientes de agente possam controlá-lo.

Principais Recursos

  • Wrapper de servidor MCP para ações de computador: Fornece um endpoint MCP para que clientes MCP solicitem ações de GUI.
  • Uso de computador multiplataforma (macOS, Linux, Windows): Projetado para executar automação de computador em sistemas operacionais de desktop.
  • Automação baseada em Acessibilidade: Usa Acessibilidade como mecanismo subjacente para comportamento CUA não intrusivo.
  • Interface de “tool calling” estilo CLI: Suporta comandos para listar apps, consultar estado do app (ex.: por nome do app) e executar ações como pressionar teclas.
  • Onboarding e verificações de permissões: Inclui comando doctor para verificar permissões e exibir comportamento de onboarding quando acesso necessário está ausente.

Como Usar open-codex-computer-use

  1. Instale no seu computador e torne disponível para o seu agente/cliente.

    • Instale no Codex editando ~/.codex/config.toml e executando:
      open-computer-use install-codex-mcp
      
    • Ou adicione manualmente ao seu cliente MCP usando uma configuração JSON MCP:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Conceda as permissões necessárias.

    • No macOS, execute uma vez e conceda Acessibilidade e Gravação de Tela.
    • No Windows e Linux, a página afirma que esses passos extras não são necessários.
  3. Use via chamadas de ferramentas MCP.

    • Exemplo: listar apps
      open-computer-use call list_apps
      
    • Exemplo: obter estado do app TextEdit
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Exemplo: executar múltiplos passos em um processo (reutilizando estado element_index), com sleep entre operações bem-sucedidas:
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Casos de Uso

  • Controlar um app de desktop local de um agente de IA (fluxo de trabalho de cliente mcp): Um agente usa chamadas de ferramentas MCP para inspecionar estado do app e acionar ações de GUI em macOS/Linux/Windows.
  • Reproduzir comportamento “Codex-style” de uso de computador em vários clientes: O repositório nota que “open-computer-use” é usado como Computer Use no Codex App e Codex CLI, igualando a experiência oficial.
  • Validar e solucionar permissões: Use open-computer-use doctor para verificar se acesso necessário está ausente e entender prompts de onboarding.
  • Agrupar sequência curta de interação GUI: Execute uma sequência de ações multi-etapa em um processo para reutilizar estado intermediário (como element_index) entre passos.
  • Testes específicos de plataforma: O repositório inclui demos mostrando Computer Use no Linux e integração com Gemini CLI via MCP.

FAQ

  • O que significa “encapsulado como MCP” aqui? O projeto expõe sua capacidade de uso de computador por meio de uma interface de servidor MCP, para que um cliente MCP possa chamar ferramentas para executar ações de GUI.

  • Preciso conceder permissões? A página afirma que no macOS você precisa executar uma vez e conceder Acessibilidade e Gravação de Tela; Windows e Linux não precisam desse passo.

  • Como conecto ao meu agente? Você pode instalá-lo em um cliente específico (ex.: Codex) usando comandos de instalação fornecidos, ou configurá-lo manualmente via configuração JSON MCP em mcpServers.

  • Posso chamar ferramentas individuais ou executar sequências? Sim. A página mostra exemplos para chamadas de ferramenta única (como list_apps e get_app_state) e sequências multi-etapa via open-computer-use call --calls ou --calls-file.

  • Há uma forma integrada de verificar a saúde da configuração? Sim. O repositório inclui open-computer-use doctor para verificação de permissões.

Alternativas

  • open-browser-use (alternativa focada em navegador): O repositório aponta para “open-browser-use” se você se interessar por uso de navegador em vez de automação de GUI de desktop.
  • Outras integrações de servidor MCP para automação de computador/navegador: Se você já padroniza em MCP, procure servidores MCP alternativos que exponham ferramentas de automação GUI — posicionados por quais SOs e backends de automação suportam.
  • Bibliotecas de automação em-processo (não-MCP): Em vez de MCP, algumas configurações usam APIs/bibliotecas de automação de desktop diretamente em um runtime único de app/agente; isso difere por exigir integração mais apertada em vez de uma fronteira de rede MCP.