open-codex-computer-use
open-codex-computer-use: Open-Source „Computer Use“-Service als MCP-Server, um GUI-Aktionen auf macOS, Linux und Windows auszuführen.
Was ist open-codex-computer-use?
Open Computer Use (open-codex-computer-use) ist ein Open-Source-„Computer Use“-Service, der als MCP (Model Context Protocol)-Server bereitgestellt wird. Er ermöglicht es einem KI-Agenten oder einem beliebigen MCP-Client, GUI-Computeraktionen auf macOS, Linux und Windows auszuführen.
Das Projekt wurde von OpenAIs Codex Computer Use inspiriert. Es implementiert nicht-intrusive „CUA“ (Computer Use Automation)-Funktionen auf Basis von System-Zugänglichkeits-APIs und stellt diese Fähigkeit über MCP bereit, damit verschiedene Agenten-Clients sie steuern können.
Wichtige Funktionen
- MCP-Server-Wrapper für Computeraktionen: Stellt einen MCP-Endpunkt bereit, damit MCP-Clients GUI-Aktionen anfordern können.
- Plattformübergreifende Computer-Nutzung (macOS, Linux, Windows): Entwickelt für Computerautomatisierung über Desktop-Betriebssysteme hinweg.
- Automatisierung auf Zugänglichkeitsbasis: Nutzt Zugänglichkeitsfunktionen als zugrunde liegenden Mechanismus für nicht-intrusive CUA-Verhalten.
- CLI-ähnliche „Tool-Calling“-Schnittstelle: Unterstützt Befehle zum Auflisten von Apps, Abfragen des App-Zustands (z. B. nach App-Name) und Ausführen von Aktionen wie Tastendrücken.
- Onboarding und Berechtigungsprüfungen: Enthält einen
doctor-Befehl zur Überprüfung von Berechtigungen und zum Anzeigen von Onboarding-Verhalten bei fehlendem Zugriff.
So verwenden Sie open-codex-computer-use
-
Installieren Sie es auf Ihrem System und machen Sie es für Ihren Agenten/Client verfügbar.
- In Codex installieren, indem Sie
~/.codex/config.tomlbearbeiten und ausführen:open-computer-use install-codex-mcp - Oder manuell zu Ihrem MCP-Client hinzufügen mit einer MCP-JSON-Konfig:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- In Codex installieren, indem Sie
-
Notwendige Berechtigungen erteilen.
- Unter macOS müssen Sie es einmal ausführen und Zugänglichkeit sowie Bildschirmaufnahme erteilen.
- Unter Windows und Linux sind laut Seite keine zusätzlichen Schritte erforderlich.
-
Über MCP-Tool-Calls nutzen.
- Beispiel: Apps auflisten
open-computer-use call list_apps - Beispiel: App-Zustand für TextEdit abrufen
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Beispiel: Mehrere Schritte in einem Prozess ausführen (Wiederverwendung von
element_index-Zustand) mit Pausen zwischen erfolgreichen Operationen:open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Beispiel: Apps auflisten
Anwendungsfälle
- Lokale Desktop-App von einem KI-Agenten steuern (MCP-Client-Workflow): Ein Agent verwendet MCP-Tool-Calls, um App-Zustände zu prüfen und GUI-Aktionen auf macOS/Linux/Windows auszulösen.
- „Codex-ähnliches“ Computer-Use-Verhalten über Clients reproduzieren: Das Repository vermerkt, dass „open-computer-use“ in Codex App und Codex CLI als Computer Use genutzt wird und die offizielle Erfahrung nachbildet.
- Berechtigungen validieren und Fehler beheben: Verwenden Sie
open-computer-use doctor, um fehlenden Zugriff zu prüfen und Onboarding-Hinweise zu verstehen. - Kurze GUI-Interaktionssequenz batchen: Führen Sie eine mehrstufige Aktionen-Sequenz in einem Prozess aus, damit Zwischenzustände (wie
element_index) wiederverwendet werden können. - Plattformspezifische Tests: Das Repository enthält Demos für Computer Use unter Linux und Integration mit Gemini CLI über MCP.
FAQ
-
Was bedeutet „als MCP bereitgestellt“ hier? Das Projekt stellt seine Computer-Use-Fähigkeit über eine MCP-Server-Schnittstelle bereit, damit ein MCP-Client Tools aufrufen und GUI-Aktionen ausführen kann.
-
Muss ich Berechtigungen erteilen? Die Seite gibt an, dass unter macOS eine einmalige Ausführung und Erteilung von Zugänglichkeit und Bildschirmaufnahme erforderlich ist; unter Windows und Linux ist dieser Schritt nicht nötig.
-
Wie verbinde ich es mit meinem Agenten? Sie können es in einen spezifischen Client (z. B. Codex) mit den bereitgestellten Installationsbefehlen einbinden oder manuell über eine MCP-JSON-Konfig unter
mcpServerskonfigurieren. -
Kann ich einzelne Tools aufrufen oder Sequenzen ausführen? Ja. Die Seite zeigt Beispiele für einzelne Tool-Calls (wie
list_appsundget_app_state) sowie Mehrschritt-Sequenzen überopen-computer-use call --callsoder--calls-file. -
Gibt es eine eingebaute Methode zur Überprüfung der Einrichtung? Ja. Das Repository enthält
open-computer-use doctorzur Berechtigungsprüfung.
Alternativen
- open-browser-use (browserfokussierte Alternative): Das Repository verweist auf „open-browser-use“, wenn Sie an Browser-Nutzung statt Desktop-GUI-Automatisierung interessiert sind.
- Andere MCP-Server-Integrationen für Computer/Browser-Automatisierung: Wenn Sie MCP standardisieren, suchen Sie nach alternativen MCP-Servern mit GUI-Automatisierungstools – sortiert nach unterstützten OS und Automatisierungs-Backends.
- In-Prozess-Automatisierungs-Bibliotheken (non-MCP): Statt MCP nutzen einige Setups direkte Desktop-Automatisierungs-APIs/Bibliotheken innerhalb eines einzigen App/Agenten-Runtimes; dies erfordert engere Integration statt einer MCP-Netzwerkgrenze.
Alternativen
Codex Plugins
Mit Codex Plugins bündelst du Skills, App-Integrationen und MCP-Server zu wiederverwendbaren Workflows und erweiterst Codex für Tools wie Gmail, Google Drive und Slack.
AakarDev AI
AakarDev AI ist eine leistungsstarke Plattform, die die Entwicklung von KI-Anwendungen mit nahtloser Integration von Vektordatenbanken vereinfacht und eine schnelle Bereitstellung und Skalierbarkeit ermöglicht.
Arduino VENTUNO Q
Arduino VENTUNO Q ist ein Edge-AI-Computer für Robotik und physische Systeme: KI-Inferenz mit Microcontroller für deterministische Steuerung. Entwickeln in Arduino App Lab.
Devin
Devin ist ein AI-Coding-Agent für Softwareteams: unterstützt Parallelisierung von Migrations- und Refactoring-Subtasks, während Engineers steuern und Änderungen freigeben.
Ably Chat
Ably Chat ist eine Chat-API und SDKs für maßgeschneiderte Realtime-Chat-Apps: Reactions, Presence sowie Nachrichten editieren/löschen.
Whirr
Whirr ist eine leise macOS-Menüleisten-App, die Claude Code Agent-Aktivität im Notch spiegelt – für schnellen Blick, ohne auf den Bildschirm zu schauen.