browse.sh icon

browse.sh

browse.sh é um catálogo aberto de automação de navegador e uma CLI para agentes de IA controlarem sites, inspecionarem sessões e usarem fluxos locais ou na cloud.

browse.sh

O que é browse.sh?

browse.sh é um catálogo aberto de skills de automação de navegador e uma CLI de navegador para agentes de IA. Ele combina skills reutilizáveis específicas de websites com primitivas de navegador de nível mais baixo, ferramentas de depuração e sessões na cloud, para que os agentes possam interagir com websites e web apps de forma estruturada.

O catálogo é organizado em torno de receitas SKILL.md para domínios e tarefas específicos. O site também mostra exemplos de comandos para adicionar skills, controlar páginas por meio de seletores e referências de acessibilidade, inspecionar a saída de rede e do console, e alternar entre Chromium local e sessões remotas do Browserbase.

Principais Funcionalidades

  • Catálogo aberto de skills de automação de navegador para websites e tarefas específicas, com entradas como pesquisas de contratos, reserva de aulas, estado de voos, avaliações e pesquisa de trilhos.
  • Fluxo browse skills add para instalar receitas de skills reutilizáveis que ensinam agentes de IA a concluir ações em websites.
  • Controlos de navegador de baixo nível, incluindo ações click, type, select, press, hover, scroll e mouse para interação direta com a página.
  • Comandos de depuração para acompanhar a saída de rede e do console durante uma sessão, o que ajuda a inspecionar pedidos, respostas, avisos e erros em runtime.
  • Suporte para Chromium local por defeito, com opção de prefixar comandos com cloud para usar sessões remotas e APIs do Browserbase.
  • Saídas estruturadas de skills específicas do site, como URLs canónicas, campos de estado, janelas de tempo, classificações ou outros dados de página mostrados nos exemplos do catálogo.

Como Usar o browse.sh

Comece por instalar a CLI com npm e depois use browse skills add para instalar as skills relevantes para os websites de destino. Depois disso, controle as páginas com os comandos do navegador para clicar, escrever, selecionar e fazer scroll, ou use as entradas do catálogo como receitas prontas para sites conhecidos.

Se precisar de inspecionar o comportamento, acompanhe a rede ou o console da sessão ativa. Para fluxos remotos, use o prefixo cloud para criar uma sessão do Browserbase ou chamar as suas APIs de search e fetch.

Casos de Uso

  • Um agente de IA precisa de uma receita específica de domínio para concluir um fluxo repetitivo de website, como reservar uma aula ou pesquisar um site de viagens.
  • Um developer quer automatizar uma tarefa de navegador mantendo o controlo das interações da página por meio de comandos e seletores explícitos.
  • Um utilizador está a depurar uma web app e precisa de acompanhar chamadas de rede e a saída do console enquanto a sessão decorre.
  • Um fluxo precisa de passar da automação local do navegador para uma sessão remota sem alterar o estilo geral dos comandos.
  • Uma equipa quer um catálogo de skills reutilizável que possa ser partilhado entre agentes em vez de reconstruir prompts para cada website.

FAQ

O que o browse.sh oferece? Oferece um catálogo aberto de skills de automação de navegador, além de uma CLI para executar ações no navegador, depurar sessões e fluxos baseados na cloud.

Funciona apenas com navegadores locais? Não. A página diz que os comandos funcionam nativamente com Chromium local e que sessões remotas estão disponíveis ao prefixar os comandos com cloud.

O que é uma browser skill neste contexto? Uma skill é uma receita reutilizável, descrita como SKILL.md, que ensina um agente de IA a concluir uma tarefa num website específico.

O browse.sh suporta depuração? Sim. O site destaca o acompanhamento de rede e console para que agentes e humanos possam ver o que a página está a fazer em tempo real.

Todas as entradas do catálogo são ferramentas interativas? Não necessariamente. A página mostra uma mistura de entradas suportadas por API, baseadas em navegador e híbridas, por isso o modo de interação depende da skill específica.

Alternativas

  • Frameworks gerais de automação de navegador, como Playwright ou Puppeteer, que são orientados para programar diretamente o comportamento do navegador em vez de oferecer um catálogo de skills reutilizáveis.
  • Ferramentas de orquestração de agente/navegador que se focam em transformar instruções em linguagem natural em ações web, muitas vezes sem um marketplace público de skills.
  • Bots de navegador ou fluxos de scraping específicos de tarefas, que podem resolver bem um site ou um fluxo, mas não fornecem um catálogo partilhado de receitas reutilizáveis por site.
  • Plataformas de navegador na cloud, que enfatizam infraestrutura de navegador alojada e gestão de sessões, enquanto browse.sh combina controlo de navegador com um catálogo de skills e um fluxo de trabalho CLI.