open-codex-computer-use
open-codex-computer-use es un servicio open source de “Computer Use” como servidor MCP para automatizar acciones GUI en macOS, Linux y Windows.
¿Qué es open-codex-computer-use?
Open Computer Use (open-codex-computer-use) es un servicio open source de “Computer Use” envuelto como servidor MCP (Model Context Protocol). Permite a un agente de IA o cualquier cliente MCP ejecutar acciones GUI en macOS, Linux y Windows.
El proyecto se inspiró en OpenAI’s Codex Computer Use. Implementa un comportamiento de “CUA” (automatización de uso de computadora) no intrusivo sobre APIs de Accesibilidad del sistema, y expone esa capacidad a través de MCP para que diferentes clientes de agentes lo controlen.
Características principales
- Envoltorio de servidor MCP para acciones de computadora: Proporciona un endpoint MCP para que los clientes MCP soliciten acciones GUI.
- Uso de computadora multiplataforma (macOS, Linux, Windows): Diseñado para ejecutar automatización de computadora en sistemas operativos de escritorio.
- Automatización basada en accesibilidad: Usa Accesibilidad como mecanismo subyacente para comportamiento CUA no intrusivo.
- Interfaz de “llamada a herramientas” estilo CLI: Soporta comandos para listar apps, consultar estado de app (p. ej., por nombre de app) y realizar acciones como pulsaciones de teclas.
- Incorporación y verificaciones de permisos: Incluye un comando
doctorpara verificar permisos y mostrar comportamiento de incorporación cuando falta acceso requerido.
Cómo usar open-codex-computer-use
-
Instálalo en tu máquina y hazlo disponible para tu agente/cliente.
- Instala en Codex escribiendo en
~/.codex/config.tomly ejecutando:open-computer-use install-codex-mcp - O agrégalo manualmente a tu cliente MCP usando una configuración JSON de MCP:
{ "mcpServers": { "open-computer-use": { "command": "open-computer-use", "args": ["mcp"] } } }
- Instala en Codex escribiendo en
-
Otorga los permisos requeridos.
- En macOS, debes ejecutarlo una vez y otorgar Accesibilidad y Grabación de pantalla.
- En Windows y Linux, la página indica que no se necesitan pasos adicionales.
-
Úsalo mediante llamadas a herramientas MCP.
- Ejemplo: listar apps
open-computer-use call list_apps - Ejemplo: obtener estado de app para TextEdit
open-computer-use call get_app_state --args '{"app":"TextEdit"}' - Ejemplo: ejecutar múltiples pasos en un proceso (reutilizando estado
element_index), con sleep entre operaciones exitosas:open-computer-use call --calls '[{"tool":"get_app_state","args":{"app":"TextEdit"}},{"tool":"press_key","args":{"app":"TextEdit","key":"Return"}}]'
- Ejemplo: listar apps
Casos de uso
- Controlar una app de escritorio local desde un agente de IA (flujo de trabajo de cliente mcp): Un agente usa llamadas a herramientas MCP para inspeccionar el estado de la aplicación y activar acciones GUI en macOS/Linux/Windows.
- Reproducir comportamiento de “uso de computadora estilo Codex” en clientes: El repositorio indica que “open-computer-use” se usa como Computer Use en Codex App y Codex CLI, igualando la experiencia oficial.
- Validar y solucionar problemas de permisos: Usa
open-computer-use doctorpara verificar si falta acceso requerido y entender los prompts de incorporación. - Agrupar una secuencia corta de interacción GUI: Ejecuta una secuencia de acciones de múltiples pasos en un proceso para reutilizar estado intermedio (como
element_index) entre pasos. - Pruebas específicas de plataforma: El repositorio incluye demos que muestran Computer Use en Linux e integración con Gemini CLI vía MCP.
Preguntas frecuentes
-
¿Qué significa “envuelto como MCP” aquí? El proyecto expone su capacidad de uso de computadora a través de una interfaz de servidor MCP, para que un cliente MCP pueda llamar herramientas y realizar acciones GUI.
-
¿Necesito otorgar permisos? La página indica que en macOS debes ejecutarlo una vez y otorgar Accesibilidad y Grabación de pantalla; Windows y Linux no necesitan este paso.
-
¿Cómo lo conecto a mi agente? Puedes instalarlo en un cliente específico (p. ej., Codex) usando comandos de instalación proporcionados, o configurarlo manualmente vía una configuración JSON de MCP en
mcpServers. -
¿Puedo llamar herramientas individuales o ejecutar secuencias? Sí. La página muestra ejemplos para llamadas a herramientas individuales (como
list_appsyget_app_state) y secuencias de múltiples pasos víaopen-computer-use call --callso--calls-file. -
¿Hay una forma integrada de verificar la salud de la configuración? Sí. El repositorio incluye
open-computer-use doctorpara verificación de permisos.
Alternativas
- open-browser-use (alternativa enfocada en navegador): El repositorio apunta a “open-browser-use” si te interesa el uso de navegador en lugar de automatización GUI de escritorio.
- Otras integraciones de servidores MCP para automatización de computadora/navegador: Si ya estandarizas en MCP, busca servidores MCP alternativos que expongan herramientas de automatización GUI, según los SO y backends de automatización que soporten.
- Bibliotecas de automatización en proceso (no MCP): En lugar de MCP, algunas configuraciones usan APIs/bibliotecas de automatización de escritorio directamente dentro de un runtime de app/agente único; esto difiere al requerir integración más ajustada en lugar de un límite de red MCP.
Alternativas
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
Arduino VENTUNO Q
Arduino VENTUNO Q es un ordenador de edge AI para robótica: combina inferencia acelerada y microcontrolador para control determinista, con Arduino App Lab.
Devin
Devin es un agente de IA para programar que ayuda a equipos a completar migraciones y refactorizaciones grandes en paralelo, con aprobación humana.
Ably Chat
Ably Chat es una API y SDK de chat para crear aplicaciones personalizadas en tiempo real: reacciones, presencia y edición/eliminación de mensajes.
Whirr
Whirr es una app silenciosa de la barra de menús en macOS que refleja la actividad de Claude Code en el notch para verla sin mirar la pantalla.