open-codex-computer-use
open-codex-computer-use: serviço open-source “Computer Use” em formato MCP, para agentes executarem ações de GUI na área de trabalho no macOS, Linux e Windows.
O que é open-codex-computer-use?
Open Computer Use (open-codex-computer-use) é um serviço open-source “Computer Use” encapsulado como um servidor MCP (Model Context Protocol). Ele permite que um agente de IA ou qualquer cliente MCP execute ações de GUI no computador em macOS, Linux e Windows.
O projeto foi inspirado no OpenAI’s Codex Computer Use. Ele implementa comportamento “CUA” (automação de uso de computador) não intrusivo sobre APIs de Acessibilidade do sistema, expondo essa capacidade via MCP para que diferentes clientes de agente possam controlá-lo.
Principais Recursos
- Wrapper de servidor MCP para ações de computador: Fornece um endpoint MCP para que clientes MCP solicitem ações de GUI.
- Uso de computador multiplataforma (macOS, Linux, Windows): Projetado para executar automação de computador em sistemas operacionais de desktop.
- Automação baseada em Acessibilidade: Usa Acessibilidade como mecanismo subjacente para comportamento CUA não intrusivo.
- Interface de “tool calling” estilo CLI: Suporta comandos para listar apps, consultar estado do app (ex.: por nome do app) e executar ações como pressionar teclas.
- Onboarding e verificações de permissões: Inclui comando
doctorpara verificar permissões e exibir comportamento de onboarding quando acesso necessário está ausente.
Como Usar open-codex-computer-use
-
Instale no seu computador e torne disponível para o seu agente/cliente.
- Instale no Codex editando
~/.codex/config.tomle executando:open-computer-use install-codex-mcp - Ou adicione manualmente ao seu cliente MCP usando uma configuração JSON MCP:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- Instale no Codex editando
-
Conceda as permissões necessárias.
- No macOS, execute uma vez e conceda Acessibilidade e Gravação de Tela.
- No Windows e Linux, a página afirma que esses passos extras não são necessários.
-
Use via chamadas de ferramentas MCP.
- Exemplo: listar apps
open-computer-use call list_apps - Exemplo: obter estado do app TextEdit
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Exemplo: executar múltiplos passos em um processo (reutilizando estado
element_index), com sleep entre operações bem-sucedidas:open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Exemplo: listar apps
Casos de Uso
- Controlar um app de desktop local de um agente de IA (fluxo de trabalho de cliente mcp): Um agente usa chamadas de ferramentas MCP para inspecionar estado do app e acionar ações de GUI em macOS/Linux/Windows.
- Reproduzir comportamento “Codex-style” de uso de computador em vários clientes: O repositório nota que “open-computer-use” é usado como Computer Use no Codex App e Codex CLI, igualando a experiência oficial.
- Validar e solucionar permissões: Use
open-computer-use doctorpara verificar se acesso necessário está ausente e entender prompts de onboarding. - Agrupar sequência curta de interação GUI: Execute uma sequência de ações multi-etapa em um processo para reutilizar estado intermediário (como
element_index) entre passos. - Testes específicos de plataforma: O repositório inclui demos mostrando Computer Use no Linux e integração com Gemini CLI via MCP.
FAQ
-
O que significa “encapsulado como MCP” aqui? O projeto expõe sua capacidade de uso de computador por meio de uma interface de servidor MCP, para que um cliente MCP possa chamar ferramentas para executar ações de GUI.
-
Preciso conceder permissões? A página afirma que no macOS você precisa executar uma vez e conceder Acessibilidade e Gravação de Tela; Windows e Linux não precisam desse passo.
-
Como conecto ao meu agente? Você pode instalá-lo em um cliente específico (ex.: Codex) usando comandos de instalação fornecidos, ou configurá-lo manualmente via configuração JSON MCP em
mcpServers. -
Posso chamar ferramentas individuais ou executar sequências? Sim. A página mostra exemplos para chamadas de ferramenta única (como
list_appseget_app_state) e sequências multi-etapa viaopen-computer-use call --callsou--calls-file. -
Há uma forma integrada de verificar a saúde da configuração? Sim. O repositório inclui
open-computer-use doctorpara verificação de permissões.
Alternativas
- open-browser-use (alternativa focada em navegador): O repositório aponta para “open-browser-use” se você se interessar por uso de navegador em vez de automação de GUI de desktop.
- Outras integrações de servidor MCP para automação de computador/navegador: Se você já padroniza em MCP, procure servidores MCP alternativos que exponham ferramentas de automação GUI — posicionados por quais SOs e backends de automação suportam.
- Bibliotecas de automação em-processo (não-MCP): Em vez de MCP, algumas configurações usam APIs/bibliotecas de automação de desktop diretamente em um runtime único de app/agente; isso difere por exigir integração mais apertada em vez de uma fronteira de rede MCP.
Alternativas
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
Arduino VENTUNO Q
Arduino VENTUNO Q é um computador edge AI para robótica, unindo inferência e microcontrolador para controle determinístico. Desenvolva no Arduino App Lab.
Devin
Devin é um agente de IA para codificação que ajuda equipes de software em migrações e grandes refatorações, executando subtarefas em paralelo.
Ably Chat
Ably Chat é uma API de chat e SDKs para criar apps de mensagens em tempo real com reações, presença e edição/remoção de mensagens.
Whirr
Whirr é um app silencioso da barra de menus do macOS que espelha a atividade do agente do Claude Code na sua notch.