open-codex-computer-use
open-codex-computer-use est un service « Computer Use » open source : un serveur MCP pour automatiser des actions GUI d’IA sur macOS, Linux et Windows.
Qu'est-ce qu'open-codex-computer-use ?
Open Computer Use (open-codex-computer-use) est un service « Computer Use » open source emballé sous forme de serveur MCP (Model Context Protocol). Il permet à un agent IA ou à tout client MCP d'exécuter des actions GUI sur macOS, Linux et Windows.
Le projet s'inspire d'OpenAI’s Codex Computer Use. Il implémente un comportement « CUA » (computer use automation) non intrusif basé sur les API d'Accessibilité système, puis expose cette capacité via MCP pour que différents clients d'agents puissent le piloter.
Fonctionnalités principales
- Serveur MCP pour actions ordinateur : Fournit un point d'accès MCP pour que les clients MCP demandent des actions GUI.
- Utilisation ordinateur multiplateforme (macOS, Linux, Windows) : Conçu pour l'automatisation ordinateur sur les systèmes d'exploitation de bureau.
- Automatisation basée sur l'Accessibilité : Utilise l'Accessibilité comme mécanisme sous-jacent pour un comportement CUA non intrusif.
- Interface « tool calling » style CLI : Prend en charge des commandes pour lister les apps, interroger l'état d'une app (ex. par nom d'app), et effectuer des actions comme des appuis de touches.
- Vérifications d'onboarding et permissions : Inclut une commande
doctorpour vérifier les permissions et afficher un onboarding si l'accès requis manque.
Comment utiliser open-codex-computer-use
-
L'installez sur votre machine et rendez-le disponible à votre agent/client.
- Installez dans Codex en écrivant dans
~/.codex/config.tomlet en exécutant :open-computer-use install-codex-mcp - Ou ajoutez-le manuellement à votre client MCP via une config JSON MCP :
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- Installez dans Codex en écrivant dans
-
Accordez les permissions requises.
- Sur macOS, exécutez-le une fois et accordez Accessibility et Screen Recording.
- Sur Windows et Linux, la page indique que ces étapes supplémentaires ne sont pas nécessaires.
-
Utilisez-le via des appels d'outils MCP.
- Exemple : lister les apps
open-computer-use call list_apps - Exemple : obtenir l'état d'une app pour TextEdit
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Exemple : exécuter plusieurs étapes en un processus (réutilisant l'état
element_index), avec pause entre opérations réussies :open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Exemple : lister les apps
Cas d'usage
- Piloter une app de bureau locale depuis un agent IA (workflow client MCP) : Un agent utilise des appels d'outils MCP pour inspecter l'état d'une application et déclencher des actions GUI sur macOS/Linux/Windows.
- Reproduire un comportement « Codex-style » multi-clients : Le dépôt note que « open-computer-use » est utilisé comme Computer Use dans Codex App et Codex CLI, correspondant à l'expérience officielle.
- Valider et dépanner les permissions : Utilisez
open-computer-use doctorpour vérifier si un accès requis manque et comprendre les invites d'onboarding. - Regrouper une séquence d'interactions GUI courtes : Exécutez une séquence multi-étapes en un processus pour réutiliser l'état intermédiaire (comme
element_index) entre étapes. - Tests spécifiques à la plateforme : Le dépôt inclut des démos montrant Computer Use sur Linux et l'intégration avec Gemini CLI via MCP.
FAQ
-
Que signifie « emballé comme MCP » ici ? Le projet expose sa capacité d'utilisation ordinateur via une interface serveur MCP, pour qu'un client MCP puisse appeler des outils et effectuer des actions GUI.
-
Dois-je accorder des permissions ? La page indique qu sur macOS, vous devez l'exécuter une fois et accorder Accessibility et Screen Recording ; Windows et Linux n'ont pas besoin de cette étape.
-
Comment le connecter à mon agent ? Vous pouvez l'installer dans un client spécifique (ex. Codex) via les commandes d'installation fournies, ou le configurer manuellement via une config JSON MCP sous
mcpServers. -
Puis-je appeler des outils individuels ou des séquences ? Oui. La page montre des exemples pour appels d'outils uniques (comme
list_appsetget_app_state) et séquences multi-étapes viaopen-computer-use call --callsou--calls-file. -
Y a-t-il un moyen intégré de vérifier la santé de la configuration ? Oui. Le dépôt inclut
open-computer-use doctorpour la vérification des permissions.
Alternatives
- open-browser-use (alternative focalisée navigateur) : Le dépôt pointe vers « open-browser-use » si vous vous intéressez à l'utilisation navigateur plutôt qu'à l'automatisation GUI de bureau.
- Autres intégrations serveurs MCP pour automatisation ordinateur/navigateur : Si vous standardisez déjà sur MCP, cherchez des serveurs MCP alternatifs exposant des outils d'automatisation GUI — selon les OS et backends d'automatisation supportés.
- Bibliothèques d'automatisation en-processus (non-MCP) : Au lieu de MCP, certaines configurations utilisent des API/bibliothèques d'automatisation de bureau directes dans un runtime app/agent unique ; cela diffère par une intégration plus serrée plutôt qu'une frontière réseau MCP.
Alternatives
Codex Plugins
Utilisez Codex Plugins pour regrouper des skills, intégrations d’app et serveurs MCP en workflows réutilisables afin d’étendre l’accès à Gmail, Google Drive et Slack.
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
Arduino VENTUNO Q
Arduino VENTUNO Q : ordinateur edge IA pour la robotique, combinant inférence accélérée et microcontrôleur pour un contrôle déterministe. Arduino App Lab.
Devin
Devin est un agent de codage IA qui automatise des sous-tâches en parallèle pour des migrations et gros refactors, sous contrôle humain et validation.
Ably Chat
Ably Chat : API et SDK de chat temps réel pour créer des applications personnalisées, avec réactions, présence et édition/suppression de messages.
Whirr
Whirr est une app silencieuse de barre de menus macOS qui réplique l’activité de l’agent Claude Code dans l’encoche pour un coup d’œil.