什麼是 Agent Browser?
Agent Browser 是一個創新的函式庫,旨在讓 AI 代理能夠以極高的 token 效率與真實的網頁瀏覽器進行互動。它彌合了人工智能與動態網路世界之間的鴻溝,讓 AI 模型能夠導覽網站、點擊元素、輸入文字、捲動頁面,甚至擷取螢幕截圖。這對於需要即時網頁互動來執行複雜任務的 AI 代理至關重要,例如資料爬蟲、自動化測試、內容摘要或執行多步驟線上流程。
Agent Browser 的主要目標是讓這些瀏覽器互動在 token 使用量方面盡可能高效,這是大型語言模型 (LLM) 的關鍵考量因素。透過提供一種結構化且最佳化的方式,讓代理能夠感知網頁內容並據以行動,它顯著增強了 AI 在網頁應用場景中的實際應用能力。無論您是將 AI 整合到現有工作流程,還是開發新的 AI 驅動應用程式,Agent Browser 都為實現複雜的瀏覽器控制提供了強大的解決方案。
主要功能
- Token 效率互動: 為 LLM 優化,在瀏覽器操作期間最大限度地減少 token 消耗。
- 真實瀏覽器控制: 讓 AI 代理能夠控制即時瀏覽器實例,模擬人類互動。
- 全面的互動功能: 支援導覽至 URL、點擊元素、輸入文字、捲動和擷取螢幕截圖等動作。
- ASCII 佈局圖表示: 提供網頁的文字表示,讓 AI 代理能夠理解頁面結構和元素。
- 多種整合選項: 可與 MCP 用戶端(如 Cursor、Claude Desktop)、Vercel AI SDK 或透過命令列介面 (CLI) 直接使用。
- 實驗性開發: 積極開發中,專注於推動 AI 與瀏覽器整合的界限。
如何使用 Agent Browser
開始使用 Agent Browser 非常簡單,並提供靈活的工作流程選項:
-
安裝: 使用 npm 安裝套件:
npm install @agent-browser-io/browser -
MCP 整合 (適用於 Cursor/Claude Desktop 等 AI 助理):
- 執行 MCP 伺服器:
npx @agent-browser-io/browser mcp - 設定您的 MCP 用戶端 (例如 Cursor 設定或
mcp.json檔案) 以連接到此伺服器。Cursor 的範例設定可在說明文件中找到。 - 設定完成後,這些用戶端內的 AI 代理即可利用 Agent Browser 工具來控制瀏覽器。
- 執行 MCP 伺服器:
-
Vercel AI SDK 整合:
- 將
createBrowserTools(browser)函數與 Vercel AI SDK 的generateText函數搭配使用。這可讓您定義 AI 模型可以呼叫的瀏覽器相關工具。
- 將
-
CLI 使用:
- 用於手動測試或直接互動,您可以使用互動式 CLI:
npx @agent-browser-io/browser - 或者,安裝後,您可以使用
agent-browser-cli。
- 用於手動測試或直接互動,您可以使用互動式 CLI:
使用案例
Agent Browser 為 AI 代理解鎖了廣泛的強大應用程式:
- 自動化網頁爬蟲與資料擷取: AI 代理可以導覽複雜網站、登入、填寫表單,並以高準確度擷取特定資料點,克服動態內容帶來的挑戰。
- 智慧化網頁測試: 透過讓 AI 代理與 UI 互動、識別錯誤並以類似人類的方式報告問題,自動化網頁應用程式的測試。
- 個人化內容策展: AI 代理可以瀏覽新聞網站、社群媒體或電子商務平台,以收集符合使用者偏好的資訊,提供個人化摘要或推薦。
- 進階研究與分析: 代理可以透過造訪多個來源、綜合資訊並針對特定主題生成報告來進行深入研究。
- 電子商務助理: AI 驅動的購物助理可以為使用者瀏覽產品、比較價格、閱讀評論,甚至完成購買。
常見問題 (FAQ)
Q1: Agent Browser 的「Token 效率」體現在哪裡?
A1: Agent Browser 的設計宗旨是最大限度地減少傳送給 LLM 的資料量。它通常提供網頁結構的 ASCII 佈局圖表示以及特定元素的資訊,而不是傳送原始 HTML 或大型螢幕截圖。這大大減少了 AI 理解和互動頁面所需的 Token 數量。
Q2: 哪些 AI 模型或平台與 Agent Browser 相容?
A2: Agent Browser 設計為與任何能夠處理文字輸入並利用工具的 AI 模型相容。它與 Cursor 和 Claude Desktop 等 MCP 用戶端有直接整合,並且與 Vercel AI SDK 無縫協作,該 SDK 支援各種 LLM。核心功能也可以適應其他 AI 框架。
Q3: Agent Browser 是否適用於複雜、大量 JavaScript 的網站?
A3: 是的,因為 Agent Browser 控制真實的瀏覽器實例,所以它可以像人類使用者一樣執行 JavaScript 並與動態內容互動。這使其能夠處理現代、複雜的網頁應用程式。
Q4: Agent Browser 提供什麼樣的支援?
A4: Agent Browser 是一個託管在 GitHub 上的開源專案。支援主要透過 GitHub 問題和討論進行社群驅動。由於其實驗性質,鼓勵使用者貢獻並回報任何錯誤或功能請求。
Q5: Agent Browser 是否可用於需要登入網站的任務?
A5: 絕對可以。Agent Browser 可以透過在表單欄位中輸入憑證和點擊登入按鈕來模擬登入網站的過程,從而讓 AI 代理能夠代表使用者存取已驗證的內容或執行動作。
替代品
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
AgentMail
AgentMail 是供 AI 代理使用的電子郵件收件匣 API:透過 REST 建立、寄送、接收與搜尋郵件,支援雙向對話。
Arduino VENTUNO Q
Arduino VENTUNO Q 邊緣 AI 電腦,結合 AI 推論硬體與微控制器,支援機器人即時控制;透過 Arduino App Lab 進行嵌入式、Linux 與邊緣 AI 工作流程。
BotBoard
用共享待辦清單、結構化情境與人工審核流程,像管理團隊一樣管理 AI agent:指派、追蹤並批准輸出。
Devin
Devin 是 AI 程式碼代理,可平行執行程式碼遷移與大型重構子任務;工程師負責專案管理並審核變更。