browse.sh
browse.sh é um catálogo aberto de automação de navegador e uma CLI para agentes de IA controlarem sites, inspecionarem sessões e usarem fluxos locais ou na cloud.
O que é browse.sh?
browse.sh é um catálogo aberto de skills de automação de navegador e uma CLI de navegador para agentes de IA. Ele combina skills reutilizáveis específicas de websites com primitivas de navegador de nível mais baixo, ferramentas de depuração e sessões na cloud, para que os agentes possam interagir com websites e web apps de forma estruturada.
O catálogo é organizado em torno de receitas SKILL.md para domínios e tarefas específicos. O site também mostra exemplos de comandos para adicionar skills, controlar páginas por meio de seletores e referências de acessibilidade, inspecionar a saída de rede e do console, e alternar entre Chromium local e sessões remotas do Browserbase.
Principais Funcionalidades
- Catálogo aberto de skills de automação de navegador para websites e tarefas específicas, com entradas como pesquisas de contratos, reserva de aulas, estado de voos, avaliações e pesquisa de trilhos.
- Fluxo
browse skills addpara instalar receitas de skills reutilizáveis que ensinam agentes de IA a concluir ações em websites. - Controlos de navegador de baixo nível, incluindo ações
click,type,select,press,hover,scrollemousepara interação direta com a página. - Comandos de depuração para acompanhar a saída de rede e do console durante uma sessão, o que ajuda a inspecionar pedidos, respostas, avisos e erros em runtime.
- Suporte para Chromium local por defeito, com opção de prefixar comandos com
cloudpara usar sessões remotas e APIs do Browserbase. - Saídas estruturadas de skills específicas do site, como URLs canónicas, campos de estado, janelas de tempo, classificações ou outros dados de página mostrados nos exemplos do catálogo.
Como Usar o browse.sh
Comece por instalar a CLI com npm e depois use browse skills add para instalar as skills relevantes para os websites de destino. Depois disso, controle as páginas com os comandos do navegador para clicar, escrever, selecionar e fazer scroll, ou use as entradas do catálogo como receitas prontas para sites conhecidos.
Se precisar de inspecionar o comportamento, acompanhe a rede ou o console da sessão ativa. Para fluxos remotos, use o prefixo cloud para criar uma sessão do Browserbase ou chamar as suas APIs de search e fetch.
Casos de Uso
- Um agente de IA precisa de uma receita específica de domínio para concluir um fluxo repetitivo de website, como reservar uma aula ou pesquisar um site de viagens.
- Um developer quer automatizar uma tarefa de navegador mantendo o controlo das interações da página por meio de comandos e seletores explícitos.
- Um utilizador está a depurar uma web app e precisa de acompanhar chamadas de rede e a saída do console enquanto a sessão decorre.
- Um fluxo precisa de passar da automação local do navegador para uma sessão remota sem alterar o estilo geral dos comandos.
- Uma equipa quer um catálogo de skills reutilizável que possa ser partilhado entre agentes em vez de reconstruir prompts para cada website.
FAQ
O que o browse.sh oferece? Oferece um catálogo aberto de skills de automação de navegador, além de uma CLI para executar ações no navegador, depurar sessões e fluxos baseados na cloud.
Funciona apenas com navegadores locais?
Não. A página diz que os comandos funcionam nativamente com Chromium local e que sessões remotas estão disponíveis ao prefixar os comandos com cloud.
O que é uma browser skill neste contexto?
Uma skill é uma receita reutilizável, descrita como SKILL.md, que ensina um agente de IA a concluir uma tarefa num website específico.
O browse.sh suporta depuração? Sim. O site destaca o acompanhamento de rede e console para que agentes e humanos possam ver o que a página está a fazer em tempo real.
Todas as entradas do catálogo são ferramentas interativas? Não necessariamente. A página mostra uma mistura de entradas suportadas por API, baseadas em navegador e híbridas, por isso o modo de interação depende da skill específica.
Alternativas
- Frameworks gerais de automação de navegador, como Playwright ou Puppeteer, que são orientados para programar diretamente o comportamento do navegador em vez de oferecer um catálogo de skills reutilizáveis.
- Ferramentas de orquestração de agente/navegador que se focam em transformar instruções em linguagem natural em ações web, muitas vezes sem um marketplace público de skills.
- Bots de navegador ou fluxos de scraping específicos de tarefas, que podem resolver bem um site ou um fluxo, mas não fornecem um catálogo partilhado de receitas reutilizáveis por site.
- Plataformas de navegador na cloud, que enfatizam infraestrutura de navegador alojada e gestão de sessões, enquanto browse.sh combina controlo de navegador com um catálogo de skills e um fluxo de trabalho CLI.
Alternativas
AakarDev AI
AakarDev AI é uma plataforma poderosa que simplifica o desenvolvimento de aplicações de IA com integração perfeita de banco de dados vetorial, permitindo implantação rápida e escalabilidade.
Arduino VENTUNO Q
Arduino VENTUNO Q é um computador edge AI para robótica, unindo inferência e microcontrolador para controle determinístico. Desenvolva no Arduino App Lab.
Devin
Devin é um agente de IA para codificação que ajuda equipes de software em migrações e grandes refatorações, executando subtarefas em paralelo.
open-codex-computer-use
open-codex-computer-use: serviço open-source “Computer Use” em formato MCP, para agentes executarem ações de GUI na área de trabalho no macOS, Linux e Windows.
Codex Plugins
Use Codex Plugins para combinar skills, integrações de apps e servidores MCP em fluxos reutilizáveis, ampliando o acesso do Codex a Gmail, Drive e Slack.
Ably Chat
Ably Chat é uma API de chat e SDKs para criar apps de mensagens em tempo real com reações, presença e edição/remoção de mensagens.