UStackUStack
Agentset favicon

Agentset

Agentset 是一個開源平台,用於打造可在正式環境運行的 AI 對話與搜尋應用,具備可靠的 RAG、多模態支援,以及對開發者友善的 SDK。

Agentset

什麼是 Agentset?

什麼是 Agentset?

Agentset 是一個面向開發者的開源基礎設施平台,用於建置可在正式環境運行的檢索增強生成(Retrieval-Augmented Generation,RAG)應用。它為 AI 對話與搜尋體驗提供底層能力,能在你的自有文件與資料上輸出可靠且附帶引用的答案,而不需要你從零開始設計、調校與維運一整套複雜的 RAG 流水線。

多數 RAG Demo 在實驗室或受控環境中看起來相當亮眼,但在面對真實使用者、大量文件與雜亂的多模態資料時,往往容易失效。Agentset 正是為這些真實、嚴苛的正式環境而打造。它把穩定的文件匯入、混合檢索、智能代理式推理以及自動引用整合成一個開箱即用的系統,讓團隊可以在幾分鐘,而不是幾個月內,將高準確度的 AI 搜尋與問答能力放進自己的產品。

主要功能

  • 開箱即用的正式環境級 RAG
    Agentset 提供端到端的 RAG 技術堆疊——包含匯入、索引、檢索、推理與答案生成——專為正式環境的工作負載設計。隨著資料量、使用頻率與複雜度的提升,它仍能維持高可靠度與結果一致性。

  • 高精準答案與基準測試級表現
    平台在未做任何客製化調校前,就已針對你的自有資料做了高準確度優化。Agentset 以 MultiHopQAFinanceBench 等產業標竿基準為目標,非常適合處理複雜、多步驟與高度領域化的問答需求。

  • 多模態支援(文字、圖片、表格、圖形等)
    Agentset 原生支援圖片、表格與圖形,同時也支援傳統文字內容。這讓你可以在整個知識庫範圍內回答問題——包括 PDF、簡報、試算表、圖片密集文件與各種結構化產出——而不只侷限於純文字。

  • 自動引用,建立可信賴答案
    每個由 Agentset 產生的答案都會附上來源引用。使用者可以檢視確切使用了哪些文件與片段,在醫療、金融等敏感領域中,進一步提升信任度、可除錯性與合規性。

  • 中繼資料(Metadata)過濾與細粒度檢索控制
    Agentset 支援以中繼資料進行過濾,你可以依照客戶、專案、地區、日期、權限層級等維度,限制答案僅來自正確的文件子集合。這對多租戶產品與角色導向存取控制情境特別關鍵。

  • 混合搜尋與重排序
    檢索層結合向量搜尋、傳統關鍵字搜尋與中繼資料檢索,並透過重排序提升精準度。這同時強化召回率與相關性,減少幻覺與遺漏結果。

  • 內建智能代理式推理能力
    Agentset 在平台中內建代理式推理能力,支援多步分析、多文件綜整與複雜問答,而無需自行開發複雜的 Orchestration 邏輯。

  • 廣泛的檔案格式支援
    Agentset 支援 22+ 種檔案格式,可匯入下列類型文件:
    .PDF、.DOCX、.PPT、.PPTX、.XLSX、.ODT、.TXT、.MD、.CSV、.TSV、.HTML、.XML、.EML、.MSG、.JPEG、.PNG、.BMP、.HEIC 等。這樣的廣泛支援,能幫助你將既有知識庫匯整到同一個可搜尋、對 AI 友善的索引中。

  • 以開發者為中心的 SDK(JavaScript & Python)
    Agentset 提供 JavaScript 與 Python SDK,讓你可以輕鬆進行資料匯入、命名空間設定與 AI Agent 查詢。典型流程只需要幾行程式碼,就能建立命名空間、上傳文件(檔案或 URL),並開始回答問題。

  • 模型無關與基礎設施彈性
    你不會被鎖死在單一模型或供應商上。Agentset 讓你可以自行選擇:

    • 向量資料庫(例如 Pinecone、Qdrant)
    • Embedding 模型
    • LLM 大型語言模型(例如 OpenAI、Anthropic Claude、Google AI、xAI Grok、Mistral、Qwen、DeepSeek 等) 這種彈性讓你能在成本、延遲、資料落地位置及合規要求之間取得最佳平衡。
  • MCP Server 整合
    透過 Model Context Protocol (MCP) Server,Agentset 可將你的知識庫帶入支援 MCP 的外部應用,讓其他環境中的 AI Agent 能夠安全且有效率地查詢你的文件。

  • AI SDK 整合
    Agentset 能與 AI SDK 生態整合,使你可以輕鬆在自家應用、儀表板或面向客戶的產品中嵌入基於 RAG 的聊天與搜尋元件。

  • 外部預覽連結與對話介面
    你可以透過可自訂的聊天介面與預覽連結,快速蒐集利害關係人與使用者的回饋,在正式上線之前,就能對 Prompt、檢索設定與答案格式進行快速迭代。

  • 獲得真實團隊的信任
    Agentset 已被醫療、公共部門與金融科技等高風險領域的團隊採用。回饋內容強調其可靠性提升、對複雜圖片搜尋的支援,以及只需不到一小時的工時,就能以更好的效果取代傳統搜尋方案(例如 Algolia)。

如何使用 Agentset

使用 Agentset 通常遵循一個清晰的開發流程,從設定到正式部署:

  1. 建立專案並取得 API Key

    • 註冊 Agentset 並產生 API Key。
    • 在你的應用中安裝 SDK:
      • JavaScript/TypeScriptnpm install agentset
      • Python:透過 pip 安裝對應的 Python 套件。
  2. 為資料建立命名空間(Namespace)
    命名空間用來在邏輯上隔離不同的文件集合、租戶或環境(例如 productionstaging,或依客戶區分)。

    import { Agentset } from "agentset";
    
    const agentset = new Agentset({ apiKey: "agentset_xxx" });
    const namespace = agentset.namespace("ns_1234");
    
  3. 匯入(Ingest)你的文件
    你可以直接上傳檔案或透過 URL 匯入,並附加選用的中繼資料,供後續過濾之用。

    const ingestJob = await namespace.ingestion.create({
      payload: {
        type: "FILE",
        fileUrl: "https://example.com/document.pdf",
        fileName: "my-document.pdf"
      },
      config: {
        metadata: { foo: "bar" }
      }
    });
    
    • 使用受支援的格式,例如 PDF、Office 文件、電子郵件、圖片、Markdown 等。
    • 綁定中繼資料(例如客戶 ID、部門、存取層級、標籤等),以便後續精準控管檢索結果。
  4. 設定檢索策略與模型(選用)

    • 選擇偏好的向量資料庫、Embedding 模型與 LLM。
    • 依需求開啟混合搜尋與重排序。
    • 定義過濾條件,確保租戶隔離與存取控管。
  5. 在應用中嵌入聊天或搜尋功能

    • 使用 AI SDK 建立呼叫 Agentset 的聊天或搜尋 API 端點。
    • 建構 UI 元件(聊天窗、搜尋列、側邊欄等),呼叫 Agentset 並呈現附引用的答案。
    • 也可以透過 MCP Server 整合,將你的知識庫暴露給外部 AI 工具使用。
  6. 測試、預覽與迭代

    • 將預覽連結分享給利害關係人,驗證答案品質。
    • 使用你自己的測試資料集評估效能,特別是多跳推理與垂直領域問題。
    • 根據回饋調整檢索參數、過濾條件與 Prompt 設計。
  7. 在正式環境中監控與擴充

    • 隨著使用量增加,調整資料庫、模型等基礎設施選擇,以符合成本與延遲需求。
    • 持續匯入新文件,使知識庫保持最新。
    • 利用中繼資料與命名空間,管理多租戶或多產品部署情境。

應用案例

1. SaaS 平台內建 AI 搜尋與聊天

擁有大型說明中心、技術文件與客製化設定的 SaaS 產品,可以嵌入由 Agentset 驅動的搜尋,提供精準且具情境的解答。相較於靜態 FAQ 頁面與脆弱的關鍵字搜尋,使用者可以直接用自然語言提問,並獲得附引用、值得信賴的回應,資料來源涵蓋版本更新說明、設定指南與支援工單等。

2. 醫療與醫學知識助手

在醫療領域,可靠度與可追溯性極為重要。Agentset 能為臨床醫師、研究人員或醫療營運團隊提供內部工具,用來查詢指引、論文與內部流程規範。自動引用與有根據的回答可降低幻覺風險,幫助團隊在維持高效率的同時,確認答案背後確實有文獻與證據支撐。

3. 公共部門與市政資訊入口網站

與市政或政府機關合作的組織,往往要管理上百、上千頁的法規、政策與公開文件,其中常含有圖片、圖表與表格。Agentset 的多模態能力可支援複雜的圖片與文件搜尋,協助公務人員或市民在冗長、多元的文件中快速找到精準資訊。

4. 金融研究、法遵與分析工具

金融團隊需要回答橫跨財報申報文件、內部報告與市場資料的複雜多跳問題。Agentset 在 FinanceBench 等任務上的基準表現,使其相當適合作為研究助手、法遵檢查與分析工具的底層引擎,能在高度密集且專業的文件上給出精準解答。

5. 企業知識庫與內部 Copilot

大型企業常擁有高度碎片化的知識(Wiki、PDF、電子郵件封存、內部網站與檔案分享等)。Agentset 可以將跨部門搜尋統一到同一入口。混合搜尋、中繼資料過濾與模型無關的架構,讓 IT 團隊能掌控資料存放位置、所使用的模型以及存取規則;同時,員工也能獲得一個統一且強大的內部知識 AI 助手。

常見問題(FAQ)

什麼是 Agentset?

Agentset 是一個開源平台與基礎設施層,用於建置可在正式環境運行的 RAG 應用。它提供文件匯入、索引、檢索、推理與答案生成能力,讓開發者不必自行打造整套 RAG 流水線,就能在產品中嵌入高準確度的 AI 對話與搜尋功能。

Agentset 適合哪些人使用?

Agentset 適合希望在自家資料之上快速上線可靠 AI 功能(例如聊天機器人、內部 Copilot 或進階搜尋)的開發者與產品團隊。無論是新創、中小企業或大型企業,只要需要正式環境級效能、多租戶支援,以及在模型與基礎設施選擇上的高度彈性,都可以採用 Agentset。

大型企業能否採用 Agentset?

可以。Agentset 是為處理真實世界中的大規模文件集、複雜資料型態與高流量使用情境而設計。它對中繼資料過濾、命名空間與模型無關基礎架構的支援,使其非常適合需要嚴格資料隔離、合規與與既有系統深度整合的企業環境。

Agentset 是不是像 LangChain 或 LlamaIndex 那樣的框架?

Agentset 不僅僅是前端/客戶端的編排框架。LangChain 或 LlamaIndex 等框架可以幫助你在程式碼中組裝 RAG 工作流,而 Agentset 則提供託管的、正式環境可用的後端,用於文件匯入、檢索與推理。你可以將 Agentset 與這些框架整合使用,但 Agentset 的目標是減少你自行建置與營運檢索基礎設施的負擔。

Agentset 能與現有技術堆疊整合嗎?

可以。Agentset 在模型層是中立的,支援主流向量資料庫、LLM 供應商與 Embedding。你可以選擇 Pinecone、Qdrant 等作為向量儲存,也可以採用 OpenAI、Anthropic、Google AI、xAI Grok、Mistral、Qwen、DeepSeek 等廠商的模型。透過 JavaScript、TypeScript、Python SDK,以及 MCP Server 與 AI SDK,Agentset 能輕鬆嵌入現有服務與前端。

為什麼選擇 Agentset,而不是自行打造 RAG 系統?

從頭建置一個穩健的 RAG 系統,需要設計匯入流程、處理多種檔案格式、調校檢索、實作混合搜尋與重排序、管理引用,並在需求變動時持續維運基礎設施。這通常須耗費數個月的工程時間與持續維護成本。Agentset 將這些能力封裝成開箱即用的服務,讓你的團隊可以把心力放在產品功能與使用者體驗上,而不是底層檢索管線。

Agentset 如何處理真實世界文件?

Agentset 對雜亂的真實資料進行了優化。它支援 22+ 種檔案格式,包括 PDF、Office 文件、電子郵件、圖片與 HTML,並自動完成解析、切片與索引,以提升檢索效果。多模態支援確保圖片、圖形與表格在搜尋與問答過程中不會被忽略,而是能被適切地利用。

當需求隨時間改變時怎麼辦?

隨著產品演進,你可以依需要更換或調整向量資料庫、模型與檢索策略,而不必推翻整套系統。Agentset 的模型無關架構與豐富的中繼資料過濾能力,使你能更容易因應新的合規要求、上線地區、資料型態或效能限制,同時維持對開發者而言一致且穩定的介面。