open-codex-computer-use
open-codex-computer-use — open-source служба «Computer Use» в виде MCP-сервера: AI-агенты управляют GUI на macOS, Linux и Windows.
Что такое open-codex-computer-use?
Open Computer Use (open-codex-computer-use) — это open-source служба «Computer Use» в виде сервера MCP (Model Context Protocol). Она позволяет AI-агенту или любому MCP-клиенту выполнять GUI-действия на компьютере в macOS, Linux и Windows.
Проект вдохновлён OpenAI’s Codex Computer Use. Он реализует ненавязчивое поведение «CUA» (computer use automation) на базе системных Accessibility API, а затем предоставляет эту возможность через MCP, чтобы разные клиентские агенты могли ею управлять.
Ключевые возможности
- Обёртка MCP-сервера для компьютерных действий: Предоставляет MCP-эндпоинт, чтобы MCP-клиенты могли запрашивать GUI-действия.
- Кроссплатформенное использование компьютера (macOS, Linux, Windows): Разработано для автоматизации компьютера на разных десктопных ОС.
- Автоматизация на базе Accessibility: Использует Accessibility как базовый механизм для ненавязчивого поведения CUA.
- Интерфейс «tool calling» в стиле CLI: Поддерживает команды для списка приложений, запроса состояния приложения (например, по имени) и выполнения действий вроде нажатий клавиш.
- Онбординг и проверка разрешений: Включает команду
doctorдля проверки разрешений и показа онбординга при отсутствии нужного доступа.
Как использовать open-codex-computer-use
-
Установите на машину и сделайте доступным для агента/клиента.
- Установите в Codex, записав в
~/.codex/config.tomlи запустив:open-computer-use install-codex-mcp - Или добавьте вручную в MCP-клиент через JSON-конфиг MCP:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- Установите в Codex, записав в
-
Предоставьте необходимые разрешения.
- В macOS запустите один раз и предоставьте Accessibility и Screen Recording.
- В Windows и Linux дополнительные шаги не требуются.
-
Используйте через MCP tool calls.
- Пример: список приложений
open-computer-use call list_apps - Пример: состояние приложения для TextEdit
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Пример: несколько шагов в одном процессе (с переиспользованием состояния
element_index), с паузой между успешными операциями:open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Пример: список приложений
Сценарии использования
- Управление локальным десктопным приложением из AI-агента (workflow MCP-клиента): Агент использует MCP tool calls для проверки состояния приложения и запуска GUI-действий в macOS/Linux/Windows.
- Воспроизведение поведения «Codex-style» computer use для разных клиентов: Репозиторий отмечает, что «open-computer-use» используется как Computer Use в Codex App и Codex CLI, соответствуя официальному опыту.
- Проверка и отладка разрешений: Используйте
open-computer-use doctorдля проверки отсутствующих разрешений и понимания подсказок онбординга. - Пакетная последовательность короткого GUI-взаимодействия: Запустите многошаговую последовательность в одном процессе, чтобы промежуточное состояние (например,
element_index) переиспользовалось между шагами. - Тестирование для конкретной платформы: Репозиторий содержит демо Computer Use на Linux и интеграцию с Gemini CLI через MCP.
FAQ
-
Что значит «wrapped as MCP» здесь? Проект предоставляет возможности computer use через интерфейс MCP-сервера, чтобы MCP-клиент мог вызывать инструменты для GUI-действий.
-
Нужно ли предоставлять разрешения? На macOS нужно запустить один раз и предоставить Accessibility и Screen Recording; Windows и Linux этого не требуют.
-
Как подключить к агенту? Установите в конкретный клиент (например, Codex) с помощью команд установки или настройте вручную через MCP JSON-конфиг в
mcpServers. -
Можно ли вызывать отдельные инструменты или последовательности? Да. Примеры показывают вызовы одиночных инструментов (типа
list_appsиget_app_state) и многошаговые последовательности черезopen-computer-use call --callsили--calls-file. -
Есть ли встроенная проверка состояния установки? Да. Репозиторий включает
open-computer-use doctorдля проверки разрешений.
Альтернативы
- open-browser-use (альтернатива для браузера): Репозиторий указывает на «open-browser-use», если интересует использование браузера, а не десктопной GUI-автоматизации.
- Другие MCP-серверы для автоматизации компьютера/браузера: Если вы стандартизировали MCP, ищите альтернативные MCP-серверы с инструментами GUI-автоматизации — по поддержке ОС и бэкендов автоматизации.
- Библиотеки автоматизации в процессе (non-MCP): Вместо MCP некоторые setups используют прямые API/библиотеки десктопной автоматизации внутри одного приложения/агента; это требует более тесной интеграции, а не сетевого барьера MCP.
Альтернативы
Codex Plugins
Используйте Codex Plugins, чтобы объединять skills, интеграции приложений и MCP-серверы в повторно используемые сценарии для доступа к Gmail, Google Drive и Slack.
AakarDev AI
AakarDev AI — это мощная платформа, которая упрощает разработку приложений ИИ с бесшовной интеграцией векторных баз данных, позволяя быстрое развертывание и масштабируемость.
Arduino VENTUNO Q
Arduino VENTUNO Q — edge AI компьютер для робототехники: ускоренный вывод нейросетей и микроконтроллер для детерминированного управления. Через Arduino App Lab.
Devin
Devin — AI coding-агент для команд: помогает завершать миграции и крупные рефакторинги, выполняя подзадачи параллельно под контролем инженеров.
Ably Chat
Ably Chat — chat API и SDK для кастомных realtime-приложений: реакции, presence и правка/удаление сообщений для чатов в масштабе.
Whirr
Whirr — тихое приложение для macOS в строке меню: зеркалирует активность агента Claude Code в выемке Mac, чтобы быстро смотреть прогресс, не отвлекаясь.