UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use — open-source служба «Computer Use» в виде MCP-сервера: AI-агенты управляют GUI на macOS, Linux и Windows.

open-codex-computer-use

Что такое open-codex-computer-use?

Open Computer Use (open-codex-computer-use) — это open-source служба «Computer Use» в виде сервера MCP (Model Context Protocol). Она позволяет AI-агенту или любому MCP-клиенту выполнять GUI-действия на компьютере в macOS, Linux и Windows.

Проект вдохновлён OpenAI’s Codex Computer Use. Он реализует ненавязчивое поведение «CUA» (computer use automation) на базе системных Accessibility API, а затем предоставляет эту возможность через MCP, чтобы разные клиентские агенты могли ею управлять.

Ключевые возможности

  • Обёртка MCP-сервера для компьютерных действий: Предоставляет MCP-эндпоинт, чтобы MCP-клиенты могли запрашивать GUI-действия.
  • Кроссплатформенное использование компьютера (macOS, Linux, Windows): Разработано для автоматизации компьютера на разных десктопных ОС.
  • Автоматизация на базе Accessibility: Использует Accessibility как базовый механизм для ненавязчивого поведения CUA.
  • Интерфейс «tool calling» в стиле CLI: Поддерживает команды для списка приложений, запроса состояния приложения (например, по имени) и выполнения действий вроде нажатий клавиш.
  • Онбординг и проверка разрешений: Включает команду doctor для проверки разрешений и показа онбординга при отсутствии нужного доступа.

Как использовать open-codex-computer-use

  1. Установите на машину и сделайте доступным для агента/клиента.

    • Установите в Codex, записав в ~/.codex/config.toml и запустив:
      open-computer-use install-codex-mcp
      
    • Или добавьте вручную в MCP-клиент через JSON-конфиг MCP:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Предоставьте необходимые разрешения.

    • В macOS запустите один раз и предоставьте Accessibility и Screen Recording.
    • В Windows и Linux дополнительные шаги не требуются.
  3. Используйте через MCP tool calls.

    • Пример: список приложений
      open-computer-use call list_apps
      
    • Пример: состояние приложения для TextEdit
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Пример: несколько шагов в одном процессе (с переиспользованием состояния element_index), с паузой между успешными операциями:
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Сценарии использования

  • Управление локальным десктопным приложением из AI-агента (workflow MCP-клиента): Агент использует MCP tool calls для проверки состояния приложения и запуска GUI-действий в macOS/Linux/Windows.
  • Воспроизведение поведения «Codex-style» computer use для разных клиентов: Репозиторий отмечает, что «open-computer-use» используется как Computer Use в Codex App и Codex CLI, соответствуя официальному опыту.
  • Проверка и отладка разрешений: Используйте open-computer-use doctor для проверки отсутствующих разрешений и понимания подсказок онбординга.
  • Пакетная последовательность короткого GUI-взаимодействия: Запустите многошаговую последовательность в одном процессе, чтобы промежуточное состояние (например, element_index) переиспользовалось между шагами.
  • Тестирование для конкретной платформы: Репозиторий содержит демо Computer Use на Linux и интеграцию с Gemini CLI через MCP.

FAQ

  • Что значит «wrapped as MCP» здесь? Проект предоставляет возможности computer use через интерфейс MCP-сервера, чтобы MCP-клиент мог вызывать инструменты для GUI-действий.

  • Нужно ли предоставлять разрешения? На macOS нужно запустить один раз и предоставить Accessibility и Screen Recording; Windows и Linux этого не требуют.

  • Как подключить к агенту? Установите в конкретный клиент (например, Codex) с помощью команд установки или настройте вручную через MCP JSON-конфиг в mcpServers.

  • Можно ли вызывать отдельные инструменты или последовательности? Да. Примеры показывают вызовы одиночных инструментов (типа list_apps и get_app_state) и многошаговые последовательности через open-computer-use call --calls или --calls-file.

  • Есть ли встроенная проверка состояния установки? Да. Репозиторий включает open-computer-use doctor для проверки разрешений.

Альтернативы

  • open-browser-use (альтернатива для браузера): Репозиторий указывает на «open-browser-use», если интересует использование браузера, а не десктопной GUI-автоматизации.
  • Другие MCP-серверы для автоматизации компьютера/браузера: Если вы стандартизировали MCP, ищите альтернативные MCP-серверы с инструментами GUI-автоматизации — по поддержке ОС и бэкендов автоматизации.
  • Библиотеки автоматизации в процессе (non-MCP): Вместо MCP некоторые setups используют прямые API/библиотеки десктопной автоматизации внутри одного приложения/агента; это требует более тесной интеграции, а не сетевого барьера MCP.

Альтернативы

Codex Plugins icon

Codex Plugins

Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.

AakarDev AI icon

AakarDev AI

AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.

Arduino VENTUNO Q icon

Arduino VENTUNO Q

Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.

Devin icon

Devin

Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.

Ably Chat icon

Ably Chat

Ably Chat — chat API и SDK для кастомных realtime-приложений: реакции, presence и правка/удаление сообщений для чатов в масштабе.

Whirr icon

Whirr

Whirr — тихое приложение для macOS в строке меню: зеркалирует активность агента Claude Code в выемке Mac, чтобы быстро смотреть прогресс, не отвлекаясь.