UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use: Open-Source „Computer Use“-Service als MCP-Server, um GUI-Aktionen auf macOS, Linux und Windows auszuführen.

open-codex-computer-use

Was ist open-codex-computer-use?

Open Computer Use (open-codex-computer-use) ist ein Open-Source-„Computer Use“-Service, der als MCP (Model Context Protocol)-Server bereitgestellt wird. Er ermöglicht es einem KI-Agenten oder einem beliebigen MCP-Client, GUI-Computeraktionen auf macOS, Linux und Windows auszuführen.

Das Projekt wurde von OpenAIs Codex Computer Use inspiriert. Es implementiert nicht-intrusive „CUA“ (Computer Use Automation)-Funktionen auf Basis von System-Zugänglichkeits-APIs und stellt diese Fähigkeit über MCP bereit, damit verschiedene Agenten-Clients sie steuern können.

Wichtige Funktionen

  • MCP-Server-Wrapper für Computeraktionen: Stellt einen MCP-Endpunkt bereit, damit MCP-Clients GUI-Aktionen anfordern können.
  • Plattformübergreifende Computer-Nutzung (macOS, Linux, Windows): Entwickelt für Computerautomatisierung über Desktop-Betriebssysteme hinweg.
  • Automatisierung auf Zugänglichkeitsbasis: Nutzt Zugänglichkeitsfunktionen als zugrunde liegenden Mechanismus für nicht-intrusive CUA-Verhalten.
  • CLI-ähnliche „Tool-Calling“-Schnittstelle: Unterstützt Befehle zum Auflisten von Apps, Abfragen des App-Zustands (z. B. nach App-Name) und Ausführen von Aktionen wie Tastendrücken.
  • Onboarding und Berechtigungsprüfungen: Enthält einen doctor-Befehl zur Überprüfung von Berechtigungen und zum Anzeigen von Onboarding-Verhalten bei fehlendem Zugriff.

So verwenden Sie open-codex-computer-use

  1. Installieren Sie es auf Ihrem System und machen Sie es für Ihren Agenten/Client verfügbar.

    • In Codex installieren, indem Sie ~/.codex/config.toml bearbeiten und ausführen:
      open-computer-use install-codex-mcp
      
    • Oder manuell zu Ihrem MCP-Client hinzufügen mit einer MCP-JSON-Konfig:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Notwendige Berechtigungen erteilen.

    • Unter macOS müssen Sie es einmal ausführen und Zugänglichkeit sowie Bildschirmaufnahme erteilen.
    • Unter Windows und Linux sind laut Seite keine zusätzlichen Schritte erforderlich.
  3. Über MCP-Tool-Calls nutzen.

    • Beispiel: Apps auflisten
      open-computer-use call list_apps
      
    • Beispiel: App-Zustand für TextEdit abrufen
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Beispiel: Mehrere Schritte in einem Prozess ausführen (Wiederverwendung von element_index-Zustand) mit Pausen zwischen erfolgreichen Operationen:
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Anwendungsfälle

  • Lokale Desktop-App von einem KI-Agenten steuern (MCP-Client-Workflow): Ein Agent verwendet MCP-Tool-Calls, um App-Zustände zu prüfen und GUI-Aktionen auf macOS/Linux/Windows auszulösen.
  • „Codex-ähnliches“ Computer-Use-Verhalten über Clients reproduzieren: Das Repository vermerkt, dass „open-computer-use“ in Codex App und Codex CLI als Computer Use genutzt wird und die offizielle Erfahrung nachbildet.
  • Berechtigungen validieren und Fehler beheben: Verwenden Sie open-computer-use doctor, um fehlenden Zugriff zu prüfen und Onboarding-Hinweise zu verstehen.
  • Kurze GUI-Interaktionssequenz batchen: Führen Sie eine mehrstufige Aktionen-Sequenz in einem Prozess aus, damit Zwischenzustände (wie element_index) wiederverwendet werden können.
  • Plattformspezifische Tests: Das Repository enthält Demos für Computer Use unter Linux und Integration mit Gemini CLI über MCP.

FAQ

  • Was bedeutet „als MCP bereitgestellt“ hier? Das Projekt stellt seine Computer-Use-Fähigkeit über eine MCP-Server-Schnittstelle bereit, damit ein MCP-Client Tools aufrufen und GUI-Aktionen ausführen kann.

  • Muss ich Berechtigungen erteilen? Die Seite gibt an, dass unter macOS eine einmalige Ausführung und Erteilung von Zugänglichkeit und Bildschirmaufnahme erforderlich ist; unter Windows und Linux ist dieser Schritt nicht nötig.

  • Wie verbinde ich es mit meinem Agenten? Sie können es in einen spezifischen Client (z. B. Codex) mit den bereitgestellten Installationsbefehlen einbinden oder manuell über eine MCP-JSON-Konfig unter mcpServers konfigurieren.

  • Kann ich einzelne Tools aufrufen oder Sequenzen ausführen? Ja. Die Seite zeigt Beispiele für einzelne Tool-Calls (wie list_apps und get_app_state) sowie Mehrschritt-Sequenzen über open-computer-use call --calls oder --calls-file.

  • Gibt es eine eingebaute Methode zur Überprüfung der Einrichtung? Ja. Das Repository enthält open-computer-use doctor zur Berechtigungsprüfung.

Alternativen

  • open-browser-use (browserfokussierte Alternative): Das Repository verweist auf „open-browser-use“, wenn Sie an Browser-Nutzung statt Desktop-GUI-Automatisierung interessiert sind.
  • Andere MCP-Server-Integrationen für Computer/Browser-Automatisierung: Wenn Sie MCP standardisieren, suchen Sie nach alternativen MCP-Servern mit GUI-Automatisierungstools – sortiert nach unterstützten OS und Automatisierungs-Backends.
  • In-Prozess-Automatisierungs-Bibliotheken (non-MCP): Statt MCP nutzen einige Setups direkte Desktop-Automatisierungs-APIs/Bibliotheken innerhalb eines einzigen App/Agenten-Runtimes; dies erfordert engere Integration statt einer MCP-Netzwerkgrenze.