UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use est un service « Computer Use » open source : un serveur MCP pour automatiser des actions GUI d’IA sur macOS, Linux et Windows.

open-codex-computer-use

Qu'est-ce qu'open-codex-computer-use ?

Open Computer Use (open-codex-computer-use) est un service « Computer Use » open source emballé sous forme de serveur MCP (Model Context Protocol). Il permet à un agent IA ou à tout client MCP d'exécuter des actions GUI sur macOS, Linux et Windows.

Le projet s'inspire d'OpenAI’s Codex Computer Use. Il implémente un comportement « CUA » (computer use automation) non intrusif basé sur les API d'Accessibilité système, puis expose cette capacité via MCP pour que différents clients d'agents puissent le piloter.

Fonctionnalités principales

  • Serveur MCP pour actions ordinateur : Fournit un point d'accès MCP pour que les clients MCP demandent des actions GUI.
  • Utilisation ordinateur multiplateforme (macOS, Linux, Windows) : Conçu pour l'automatisation ordinateur sur les systèmes d'exploitation de bureau.
  • Automatisation basée sur l'Accessibilité : Utilise l'Accessibilité comme mécanisme sous-jacent pour un comportement CUA non intrusif.
  • Interface « tool calling » style CLI : Prend en charge des commandes pour lister les apps, interroger l'état d'une app (ex. par nom d'app), et effectuer des actions comme des appuis de touches.
  • Vérifications d'onboarding et permissions : Inclut une commande doctor pour vérifier les permissions et afficher un onboarding si l'accès requis manque.

Comment utiliser open-codex-computer-use

  1. L'installez sur votre machine et rendez-le disponible à votre agent/client.

    • Installez dans Codex en écrivant dans ~/.codex/config.toml et en exécutant :
      open-computer-use install-codex-mcp
      
    • Ou ajoutez-le manuellement à votre client MCP via une config JSON MCP :
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Accordez les permissions requises.

    • Sur macOS, exécutez-le une fois et accordez Accessibility et Screen Recording.
    • Sur Windows et Linux, la page indique que ces étapes supplémentaires ne sont pas nécessaires.
  3. Utilisez-le via des appels d'outils MCP.

    • Exemple : lister les apps
      open-computer-use call list_apps
      
    • Exemple : obtenir l'état d'une app pour TextEdit
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Exemple : exécuter plusieurs étapes en un processus (réutilisant l'état element_index), avec pause entre opérations réussies :
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Cas d'usage

  • Piloter une app de bureau locale depuis un agent IA (workflow client MCP) : Un agent utilise des appels d'outils MCP pour inspecter l'état d'une application et déclencher des actions GUI sur macOS/Linux/Windows.
  • Reproduire un comportement « Codex-style » multi-clients : Le dépôt note que « open-computer-use » est utilisé comme Computer Use dans Codex App et Codex CLI, correspondant à l'expérience officielle.
  • Valider et dépanner les permissions : Utilisez open-computer-use doctor pour vérifier si un accès requis manque et comprendre les invites d'onboarding.
  • Regrouper une séquence d'interactions GUI courtes : Exécutez une séquence multi-étapes en un processus pour réutiliser l'état intermédiaire (comme element_index) entre étapes.
  • Tests spécifiques à la plateforme : Le dépôt inclut des démos montrant Computer Use sur Linux et l'intégration avec Gemini CLI via MCP.

FAQ

  • Que signifie « emballé comme MCP » ici ? Le projet expose sa capacité d'utilisation ordinateur via une interface serveur MCP, pour qu'un client MCP puisse appeler des outils et effectuer des actions GUI.

  • Dois-je accorder des permissions ? La page indique qu sur macOS, vous devez l'exécuter une fois et accorder Accessibility et Screen Recording ; Windows et Linux n'ont pas besoin de cette étape.

  • Comment le connecter à mon agent ? Vous pouvez l'installer dans un client spécifique (ex. Codex) via les commandes d'installation fournies, ou le configurer manuellement via une config JSON MCP sous mcpServers.

  • Puis-je appeler des outils individuels ou des séquences ? Oui. La page montre des exemples pour appels d'outils uniques (comme list_apps et get_app_state) et séquences multi-étapes via open-computer-use call --calls ou --calls-file.

  • Y a-t-il un moyen intégré de vérifier la santé de la configuration ? Oui. Le dépôt inclut open-computer-use doctor pour la vérification des permissions.

Alternatives

  • open-browser-use (alternative focalisée navigateur) : Le dépôt pointe vers « open-browser-use » si vous vous intéressez à l'utilisation navigateur plutôt qu'à l'automatisation GUI de bureau.
  • Autres intégrations serveurs MCP pour automatisation ordinateur/navigateur : Si vous standardisez déjà sur MCP, cherchez des serveurs MCP alternatifs exposant des outils d'automatisation GUI — selon les OS et backends d'automatisation supportés.
  • Bibliothèques d'automatisation en-processus (non-MCP) : Au lieu de MCP, certaines configurations utilisent des API/bibliothèques d'automatisation de bureau directes dans un runtime app/agent unique ; cela diffère par une intégration plus serrée plutôt qu'une frontière réseau MCP.