browse.sh icon

browse.sh

browse.sh 是面向 AI 代理的浏览器自动化技能开放目录与 CLI,可控制网站、检查会话,并使用本地或云端浏览器工作流,帮助开发者和代理构建者复用站点专属流程,避免从零重写浏览步骤。

browse.sh

什么是 browse.sh?

browse.sh 是面向 AI 代理的浏览器自动化技能开放目录和浏览器 CLI。它将可复用的站点专属技能与更底层的浏览器原语、调试工具和云端会话结合起来,让代理能够以结构化方式与网站和 Web 应用交互。

该目录围绕特定领域和任务的 SKILL.md 流程组织。网站还展示了添加技能、通过选择器和无障碍引用控制页面、检查网络和控制台输出,以及在本地 Chromium 和远程 Browserbase 会话之间切换的示例命令。

主要功能

  • 面向特定网站和任务的浏览器自动化技能开放目录,包含合同搜索、课程预约、航班状态、评价和步道搜索等条目。
  • browse skills add 工作流,用于安装可复用的技能流程,教会 AI 代理如何完成网站操作。
  • 低层级浏览器控制,包括 clicktypeselectpresshoverscrollmouse 操作,用于直接进行页面交互。
  • 会话期间尾随查看网络和控制台输出的调试命令,帮助检查请求、响应、警告和运行时错误。
  • 默认支持本地 Chromium,也可通过在命令前加 cloud 使用远程会话和 Browserbase API。
  • 来自站点专属技能的结构化输出,例如规范 URL、状态字段、时间窗口、评分或目录示例中展示的其他页面数据。

如何使用 browse.sh

先用 npm 安装 CLI,然后使用 browse skills add 安装与你的目标网站相关的技能。之后,可使用浏览器命令进行点击、输入、选择和滚动,或者直接把目录条目当作已写好的已知站点流程。

如果需要检查行为,可尾随查看当前会话的网络或控制台。对于远程工作流,可使用 cloud 前缀创建 Browserbase 会话,或调用其搜索和抓取 API。

使用场景

  • AI 代理需要特定领域的流程来完成重复性网站工作流,例如预约课程或搜索旅行网站。
  • 开发者希望自动化浏览器任务,同时通过明确的命令和选择器来控制页面交互。
  • 用户在调试 Web 应用,需要在会话运行时观察网络请求和控制台输出。
  • 工作流需要从本地浏览器自动化切换到远程会话,同时不改变整体命令风格。
  • 团队希望有一个可复用的技能目录,能在多个代理之间共享,而不是为每个网站重新构建提示词。

常见问题

browse.sh 提供什么?
它提供一个浏览器自动化技能开放目录,以及用于执行浏览器操作、调试会话和云端工作流的 CLI。

它只支持本地浏览器吗?
不。页面说明命令可原生用于本地 Chromium,也可通过在命令前加 cloud 使用远程会话。

这里的浏览器技能是什么?
技能是一种可复用流程,以 SKILL.md 形式描述,教 AI 代理如何在特定网站上完成任务。

browse.sh 支持调试吗?
支持。网站强调了网络和控制台尾随查看功能,因此代理和人都能实时观察页面在做什么。

目录条目都是交互式工具吗?
不一定。页面展示了 API 驱动、浏览器驱动和混合型条目的组合,因此交互方式取决于具体技能。

替代方案

  • 通用浏览器自动化框架,例如 Playwright 或 Puppeteer,它们更侧重于直接编写脚本控制浏览器行为,而不是提供可复用技能目录。
  • 代理/浏览器编排工具,专注于将自然语言指令转换为网页操作,通常没有公开的技能市场。
  • 面向特定任务的浏览器机器人或抓取工作流,可能能很好地解决单个网站或单个流程,但不提供可共享的站点流程目录。
  • 云端浏览器平台,强调托管浏览器基础设施和会话管理,而 browse.sh 将浏览器控制与技能目录和 CLI 工作流结合在一起。