open-codex-computer-use
open-codex-computer-use è un servizio open-source “Computer Use” in wrapper MCP per far eseguire azioni GUI agli agenti su macOS, Linux e Windows.
Cos'è open-codex-computer-use?
Open Computer Use (open-codex-computer-use) è un servizio open-source “Computer Use” in wrapper come server MCP (Model Context Protocol). Consente a un agente AI o a qualsiasi client MCP di eseguire azioni GUI su macOS, Linux e Windows.
Il progetto è ispirato a OpenAI’s Codex Computer Use. Implementa un comportamento “CUA” (computer use automation) non intrusivo sulle API di Accessibilità del sistema, esponendo tale capacità tramite MCP per consentire a diversi client agenti di controllarlo.
Caratteristiche Principali
- Wrapper server MCP per azioni computer: Fornisce un endpoint MCP affinché i client MCP possano richiedere azioni GUI.
- Computer use multipiattaforma (macOS, Linux, Windows): Progettato per eseguire automazione computer su sistemi operativi desktop.
- Automazione basata su Accessibilità: Utilizza Accessibilità come meccanismo sottostante per un comportamento CUA non intrusivo.
- Interfaccia “tool calling” in stile CLI: Supporta comandi per elencare app, interrogare lo stato dell’app (es. per nome app) ed eseguire azioni come pressioni di tasti.
- Onboarding e controlli permessi: Include un comando
doctorper verificare i permessi e mostrare il comportamento di onboarding quando mancano gli accessi richiesti.
Come Usare open-codex-computer-use
-
Installalo sulla tua macchina e rendilo disponibile al tuo agente/client.
- Installa in Codex scrivendo in
~/.codex/config.tomled eseguendo:open-computer-use install-codex-mcp - O aggiungilo manualmente al tuo client MCP usando una configurazione JSON MCP:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- Installa in Codex scrivendo in
-
Concedi i permessi richiesti.
- Su macOS, devi eseguirlo una volta e concedere Accessibilità e Registrazione Schermo.
- Su Windows e Linux, la pagina indica che non sono necessari passaggi extra.
-
Usalo tramite chiamate tool MCP.
- Esempio: elenca app
open-computer-use call list_apps - Esempio: ottieni stato app per TextEdit
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Esempio: esegui più passaggi in un processo (riutilizzando stato
element_index), con sleep tra operazioni riuscite:open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Esempio: elenca app
Casi d'Uso
- Controllo di un'app desktop locale da un agente AI (workflow client mcp): Un agente usa chiamate tool MCP per ispezionare lo stato dell'applicazione e attivare azioni GUI su macOS/Linux/Windows.
- Riproduzione del comportamento “Codex-style” computer use tra client: Il repository nota che “open-computer-use” è usato come Computer Use in Codex App e Codex CLI, corrispondente all'esperienza ufficiale.
- Validazione e risoluzione problemi permessi: Usa
open-computer-use doctorper verificare se mancano accessi richiesti e comprendere i prompt di onboarding. - Batch di una sequenza breve di interazioni GUI: Esegui una sequenza di azioni multi-step in un processo per riutilizzare lo stato intermedio (come
element_index) tra i passaggi. - Test platform-specifici: Il repository include demo che mostrano Computer Use su Linux e integrazione con Gemini CLI via MCP.
FAQ
-
Cosa significa “wrapped as MCP” qui? Il progetto espone la sua capacità di computer use tramite un'interfaccia server MCP, così un client MCP può chiamare tool per eseguire azioni GUI.
-
Devo concedere permessi? La pagina indica che su macOS devi eseguirlo una volta e concedere Accessibilità e Registrazione Schermo; Windows e Linux non richiedono questo passaggio.
-
Come lo collego al mio agente? Puoi installarlo in un client specifico (es. Codex) usando i comandi di installazione forniti, o configurarlo manualmente via configurazione JSON MCP sotto
mcpServers. -
Posso chiamare tool singoli o eseguire sequenze? Sì. La pagina mostra esempi per chiamate tool singole (come
list_appseget_app_state) e sequenze multi-step viaopen-computer-use call --callso--calls-file. -
C'è un modo integrato per verificare la salute della configurazione? Sì. Il repository include
open-computer-use doctorper il controllo permessi.
Alternative
- open-browser-use (alternativa focalizzata sul browser): Il repository rimanda a “open-browser-use” se sei interessato all'uso del browser anziché all'automazione GUI desktop.
- Altre integrazioni server MCP per automazione computer/browser: Se standardizzi già su MCP, cerca server MCP alternativi che espongano tool di automazione GUI—posizionati in base a OS supportati e backend di automazione.
- Librerie di automazione in-process (non-MCP): Invece di MCP, alcune configurazioni usano API/librerie di automazione desktop dirette all'interno di un singolo runtime app/agente; questo differisce richiedendo un'integrazione più stretta anziché un confine di rete MCP.
Alternative
Codex Plugins
Usa Codex Plugins per combinare skill, integrazioni app e server MCP in workflow riutilizzabili: estendi Codex per lavorare con Gmail, Google Drive e Slack.
AakarDev AI
AakarDev AI è una piattaforma potente che semplifica lo sviluppo di applicazioni AI con integrazione fluida dei database vettoriali, consentendo un rapido deployment e scalabilità.
Arduino VENTUNO Q
Arduino VENTUNO Q è un edge AI computer per robotica: unisce inferenza AI e microcontrollore per controllo deterministico, con sviluppo in Arduino App Lab.
Devin
Devin è un agente AI per la programmazione che aiuta i team software a completare migrazioni e grandi refactoring eseguendo sottotask in parallelo, con approvazione umana.
Ably Chat
Ably Chat è un’API e SDK per chat realtime: crea applicazioni personalizzate con reazioni, presenza e modifica/eliminazione dei messaggi.
Whirr
Whirr è un’app per la barra dei menu di macOS che rispecchia l’attività degli agent di Claude Code nel notch. Dai uno sguardo senza guardare lo schermo.