UStackUStack
open-codex-computer-use icon

open-codex-computer-use

open-codex-computer-use es un servicio open source de “Computer Use” como servidor MCP para automatizar acciones GUI en macOS, Linux y Windows.

open-codex-computer-use

¿Qué es open-codex-computer-use?

Open Computer Use (open-codex-computer-use) es un servicio open source de “Computer Use” envuelto como servidor MCP (Model Context Protocol). Permite a un agente de IA o cualquier cliente MCP ejecutar acciones GUI en macOS, Linux y Windows.

El proyecto se inspiró en OpenAI’s Codex Computer Use. Implementa un comportamiento de “CUA” (automatización de uso de computadora) no intrusivo sobre APIs de Accesibilidad del sistema, y expone esa capacidad a través de MCP para que diferentes clientes de agentes lo controlen.

Características principales

  • Envoltorio de servidor MCP para acciones de computadora: Proporciona un endpoint MCP para que los clientes MCP soliciten acciones GUI.
  • Uso de computadora multiplataforma (macOS, Linux, Windows): Diseñado para ejecutar automatización de computadora en sistemas operativos de escritorio.
  • Automatización basada en accesibilidad: Usa Accesibilidad como mecanismo subyacente para comportamiento CUA no intrusivo.
  • Interfaz de “llamada a herramientas” estilo CLI: Soporta comandos para listar apps, consultar estado de app (p. ej., por nombre de app) y realizar acciones como pulsaciones de teclas.
  • Incorporación y verificaciones de permisos: Incluye un comando doctor para verificar permisos y mostrar comportamiento de incorporación cuando falta acceso requerido.

Cómo usar open-codex-computer-use

  1. Instálalo en tu máquina y hazlo disponible para tu agente/cliente.

    • Instala en Codex escribiendo en ~/.codex/config.toml y ejecutando:
      open-computer-use install-codex-mcp
      
    • O agrégalo manualmente a tu cliente MCP usando una configuración JSON de MCP:
      {
        "mcpServers": {
          "open-computer-use": {
            "command": "open-computer-use",
            "args": ["mcp"]
          }
        }
      }
      
  2. Otorga los permisos requeridos.

    • En macOS, debes ejecutarlo una vez y otorgar Accesibilidad y Grabación de pantalla.
    • En Windows y Linux, la página indica que no se necesitan pasos adicionales.
  3. Úsalo mediante llamadas a herramientas MCP.

    • Ejemplo: listar apps
      open-computer-use call list_apps
      
    • Ejemplo: obtener estado de app para TextEdit
      open-computer-use call get_app_state --args '{"app":"TextEdit"}'
      
    • Ejemplo: ejecutar múltiples pasos en un proceso (reutilizando estado element_index), con sleep entre operaciones exitosas:
      open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
      

Casos de uso

  • Controlar una app de escritorio local desde un agente de IA (flujo de trabajo de cliente mcp): Un agente usa llamadas a herramientas MCP para inspeccionar el estado de la aplicación y activar acciones GUI en macOS/Linux/Windows.
  • Reproducir comportamiento de “uso de computadora estilo Codex” en clientes: El repositorio indica que “open-computer-use” se usa como Computer Use en Codex App y Codex CLI, igualando la experiencia oficial.
  • Validar y solucionar problemas de permisos: Usa open-computer-use doctor para verificar si falta acceso requerido y entender los prompts de incorporación.
  • Agrupar una secuencia corta de interacción GUI: Ejecuta una secuencia de acciones de múltiples pasos en un proceso para reutilizar estado intermedio (como element_index) entre pasos.
  • Pruebas específicas de plataforma: El repositorio incluye demos que muestran Computer Use en Linux e integración con Gemini CLI vía MCP.

Preguntas frecuentes

  • ¿Qué significa “envuelto como MCP” aquí? El proyecto expone su capacidad de uso de computadora a través de una interfaz de servidor MCP, para que un cliente MCP pueda llamar herramientas y realizar acciones GUI.

  • ¿Necesito otorgar permisos? La página indica que en macOS debes ejecutarlo una vez y otorgar Accesibilidad y Grabación de pantalla; Windows y Linux no necesitan este paso.

  • ¿Cómo lo conecto a mi agente? Puedes instalarlo en un cliente específico (p. ej., Codex) usando comandos de instalación proporcionados, o configurarlo manualmente vía una configuración JSON de MCP en mcpServers.

  • ¿Puedo llamar herramientas individuales o ejecutar secuencias? Sí. La página muestra ejemplos para llamadas a herramientas individuales (como list_apps y get_app_state) y secuencias de múltiples pasos vía open-computer-use call --calls o --calls-file.

  • ¿Hay una forma integrada de verificar la salud de la configuración? Sí. El repositorio incluye open-computer-use doctor para verificación de permisos.

Alternativas

  • open-browser-use (alternativa enfocada en navegador): El repositorio apunta a “open-browser-use” si te interesa el uso de navegador en lugar de automatización GUI de escritorio.
  • Otras integraciones de servidores MCP para automatización de computadora/navegador: Si ya estandarizas en MCP, busca servidores MCP alternativos que expongan herramientas de automatización GUI, según los SO y backends de automatización que soporten.
  • Bibliotecas de automatización en proceso (no MCP): En lugar de MCP, algunas configuraciones usan APIs/bibliotecas de automatización de escritorio directamente dentro de un runtime de app/agente único; esto difiere al requerir integración más ajustada en lugar de un límite de red MCP.