UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use è un servizio open-source “Computer Use” in wrapper MCP per far eseguire azioni GUI agli agenti su macOS, Linux e Windows.

open-codex-computer-use

Cos'è open-codex-computer-use?

Open Computer Use (open-codex-computer-use) è un servizio open-source “Computer Use” in wrapper come server MCP (Model Context Protocol). Consente a un agente AI o a qualsiasi client MCP di eseguire azioni GUI su macOS, Linux e Windows.

Il progetto è ispirato a OpenAI’s Codex Computer Use. Implementa un comportamento “CUA” (computer use automation) non intrusivo sulle API di Accessibilità del sistema, esponendo tale capacità tramite MCP per consentire a diversi client agenti di controllarlo.

Caratteristiche Principali

  • Wrapper server MCP per azioni computer: Fornisce un endpoint MCP affinché i client MCP possano richiedere azioni GUI.
  • Computer use multipiattaforma (macOS, Linux, Windows): Progettato per eseguire automazione computer su sistemi operativi desktop.
  • Automazione basata su Accessibilità: Utilizza Accessibilità come meccanismo sottostante per un comportamento CUA non intrusivo.
  • Interfaccia “tool calling” in stile CLI: Supporta comandi per elencare app, interrogare lo stato dell’app (es. per nome app) ed eseguire azioni come pressioni di tasti.
  • Onboarding e controlli permessi: Include un comando doctor per verificare i permessi e mostrare il comportamento di onboarding quando mancano gli accessi richiesti.

Come Usare open-codex-computer-use

  1. Installalo sulla tua macchina e rendilo disponibile al tuo agente/client.

    • Installa in Codex scrivendo in ~/.codex/config.toml ed eseguendo:
      open-computer-use install-codex-mcp
      
    • O aggiungilo manualmente al tuo client MCP usando una configurazione JSON MCP:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Concedi i permessi richiesti.

    • Su macOS, devi eseguirlo una volta e concedere Accessibilità e Registrazione Schermo.
    • Su Windows e Linux, la pagina indica che non sono necessari passaggi extra.
  3. Usalo tramite chiamate tool MCP.

    • Esempio: elenca app
      open-computer-use call list_apps
      
    • Esempio: ottieni stato app per TextEdit
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Esempio: esegui più passaggi in un processo (riutilizzando stato element_index), con sleep tra operazioni riuscite:
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Casi d'Uso

  • Controllo di un'app desktop locale da un agente AI (workflow client mcp): Un agente usa chiamate tool MCP per ispezionare lo stato dell'applicazione e attivare azioni GUI su macOS/Linux/Windows.
  • Riproduzione del comportamento “Codex-style” computer use tra client: Il repository nota che “open-computer-use” è usato come Computer Use in Codex App e Codex CLI, corrispondente all'esperienza ufficiale.
  • Validazione e risoluzione problemi permessi: Usa open-computer-use doctor per verificare se mancano accessi richiesti e comprendere i prompt di onboarding.
  • Batch di una sequenza breve di interazioni GUI: Esegui una sequenza di azioni multi-step in un processo per riutilizzare lo stato intermedio (come element_index) tra i passaggi.
  • Test platform-specifici: Il repository include demo che mostrano Computer Use su Linux e integrazione con Gemini CLI via MCP.

FAQ

  • Cosa significa “wrapped as MCP” qui? Il progetto espone la sua capacità di computer use tramite un'interfaccia server MCP, così un client MCP può chiamare tool per eseguire azioni GUI.

  • Devo concedere permessi? La pagina indica che su macOS devi eseguirlo una volta e concedere Accessibilità e Registrazione Schermo; Windows e Linux non richiedono questo passaggio.

  • Come lo collego al mio agente? Puoi installarlo in un client specifico (es. Codex) usando i comandi di installazione forniti, o configurarlo manualmente via configurazione JSON MCP sotto mcpServers.

  • Posso chiamare tool singoli o eseguire sequenze? Sì. La pagina mostra esempi per chiamate tool singole (come list_apps e get_app_state) e sequenze multi-step via open-computer-use call --calls o --calls-file.

  • C'è un modo integrato per verificare la salute della configurazione? Sì. Il repository include open-computer-use doctor per il controllo permessi.

Alternative

  • open-browser-use (alternativa focalizzata sul browser): Il repository rimanda a “open-browser-use” se sei interessato all'uso del browser anziché all'automazione GUI desktop.
  • Altre integrazioni server MCP per automazione computer/browser: Se standardizzi già su MCP, cerca server MCP alternativi che espongano tool di automazione GUI—posizionati in base a OS supportati e backend di automazione.
  • Librerie di automazione in-process (non-MCP): Invece di MCP, alcune configurazioni usano API/librerie di automazione desktop dirette all'interno di un singolo runtime app/agente; questo differisce richiedendo un'integrazione più stretta anziché un confine di rete MCP.