browse.sh
browse.sh es un catálogo abierto de automatización web y una CLI para que los agentes de IA controlen sitios, inspeccionen sesiones y usen flujos locales o en la nube.
¿Qué es browse.sh?
browse.sh es un catálogo abierto de habilidades de automatización de navegador y una CLI para agentes de IA. Combina habilidades reutilizables específicas de sitios web con primitivas de navegador de nivel inferior, herramientas de depuración y sesiones en la nube para que los agentes puedan interactuar con sitios web y aplicaciones web de forma estructurada.
El catálogo está organizado en torno a recetas SKILL.md para dominios y tareas específicos. El sitio también muestra comandos de ejemplo para añadir habilidades, controlar páginas mediante selectores y referencias de accesibilidad, inspeccionar la salida de red y consola, y alternar entre Chromium local y sesiones remotas de Browserbase.
Características clave
- Catálogo abierto de habilidades de automatización de navegador para sitios web y tareas específicos, con entradas como búsquedas de contratos, reserva de clases, estado de vuelos, reseñas y búsquedas de rutas.
- Flujo
browse skills addpara instalar recetas de habilidades reutilizables que enseñan a los agentes de IA a completar acciones en sitios web. - Controles de navegador de bajo nivel, incluidos
click,type,select,press,hover,scrolly accionesmousepara interacción directa con la página. - Comandos de depuración para seguir la salida de red y consola durante una sesión, lo que ayuda a inspeccionar solicitudes, respuestas, advertencias y errores en tiempo de ejecución.
- Compatibilidad con Chromium local de forma predeterminada, con la opción de prefijar comandos con
cloudpara usar sesiones remotas y APIs de Browserbase. - Salidas estructuradas de habilidades específicas del sitio, como URLs canónicas, campos de estado, ventanas de tiempo, valoraciones u otros datos de página mostrados en los ejemplos del catálogo.
Cómo usar browse.sh
Empieza instalando la CLI con npm y luego usa browse skills add para instalar las habilidades relevantes para tus sitios de destino. Después, controla las páginas con los comandos del navegador para hacer clic, escribir, seleccionar y desplazarte, o usa las entradas del catálogo como recetas listas para usar para sitios conocidos.
Si necesitas inspeccionar el comportamiento, sigue la red o la consola de la sesión activa. Para flujos remotos, usa el prefijo cloud para crear una sesión de Browserbase o llama a sus APIs de búsqueda y obtención.
Casos de uso
- Un agente de IA necesita una receta específica de un dominio para completar un flujo repetitivo de un sitio web, como reservar una clase o buscar en un sitio de viajes.
- Un desarrollador quiere automatizar una tarea del navegador manteniendo el control sobre las interacciones de la página mediante comandos y selectores explícitos.
- Un usuario está depurando una aplicación web y necesita ver las llamadas de red y la salida de consola mientras se ejecuta la sesión.
- Un flujo de trabajo necesita pasar de la automatización local del navegador a una sesión remota sin cambiar el estilo general de los comandos.
- Un equipo quiere un catálogo de habilidades reutilizable que se pueda compartir entre agentes en lugar de reconstruir prompts para cada sitio web.
Preguntas frecuentes
¿Qué ofrece browse.sh? Ofrece un catálogo abierto de habilidades de automatización de navegador junto con una CLI para ejecutar acciones del navegador, depurar sesiones y flujos de trabajo en la nube.
¿Solo funciona con navegadores locales?
No. La página indica que los comandos funcionan de forma nativa con Chromium local, y que las sesiones remotas están disponibles prefijando los comandos con cloud.
¿Qué es una habilidad de navegador en este contexto?
Una habilidad es una receta reutilizable, descrita como SKILL.md, que enseña a un agente de IA cómo completar una tarea en un sitio web específico.
¿browse.sh admite depuración? Sí. El sitio destaca el seguimiento de red y consola para que los agentes y las personas puedan observar en tiempo real lo que está haciendo la página.
¿Todas las entradas del catálogo son herramientas interactivas? No necesariamente. La página muestra una mezcla de entradas respaldadas por API, basadas en navegador e híbridas, así que el modo de interacción depende de la habilidad concreta.
Alternativas
- Marcos generales de automatización de navegador como Playwright o Puppeteer, orientados a programar directamente el comportamiento del navegador en lugar de ofrecer un catálogo de habilidades reutilizables.
- Herramientas de orquestación agente/navegador que se centran en tomar instrucciones en lenguaje natural y convertirlas en acciones web, a menudo sin un mercado público de habilidades.
- Bots de navegador o flujos de scraping específicos de una tarea, que pueden resolver bien un sitio o un flujo concreto, pero no ofrecen un catálogo compartido de recetas reutilizables por sitio.
- Plataformas de navegador en la nube, que ponen el foco en la infraestructura de navegador alojada y la gestión de sesiones, mientras que browse.sh combina control del navegador con un catálogo de habilidades y un flujo de trabajo de CLI.
Alternativas
AakarDev AI
AakarDev AI es una plataforma poderosa que simplifica el desarrollo de aplicaciones de IA con integración fluida de bases de datos vectoriales, permitiendo un despliegue y escalabilidad rápidos.
Arduino VENTUNO Q
Arduino VENTUNO Q es un ordenador de edge AI para robótica: combina inferencia acelerada y microcontrolador para control determinista, con Arduino App Lab.
Devin
Devin es un agente de IA para programar que ayuda a equipos a completar migraciones y refactorizaciones grandes en paralelo, con aprobación humana.
open-codex-computer-use
open-codex-computer-use es un servicio open source de “Computer Use” como servidor MCP para automatizar acciones GUI en macOS, Linux y Windows.
Codex Plugins
Usa Codex Plugins para combinar skills, integraciones de apps y servidores MCP en flujos reutilizables que amplían el acceso de Codex a Gmail, Drive y Slack.
Ably Chat
Ably Chat es una API y SDK de chat para crear aplicaciones personalizadas en tiempo real: reacciones, presencia y edición/eliminación de mensajes.