UStackUStack
Agentset icon

Agentset

Agentset 是開源基礎設施平台,用於打造可上線的 RAG 應用,提供可靠 AI 搜尋與問答,支援引用、多模態與中繼資料篩選。

Agentset

Agentset 是什麼?

Agentset 是開發者用來打造可上線 RAG(檢索增強生成)應用程式的開源基礎設施平台,這些應用可在自家產品中提供搜尋與問答功能。重點在於讓 RAG 在超出展示階段時表現可靠—特別是當真實使用者與大型文件集合互動時。

根據官網,Agentset 旨在透過「開箱即用」的生產級元件,減少架設與維護 RAG 管線的工程工作,包括擷取、檢索行為,以及答案呈現功能如引用與中繼資料篩選。

主要功能

  • 生產級 RAG 用於問答與搜尋:針對真實資料與使用取代展示資料集時出現的缺口而建置。
  • 精準答案與評估基準:官網提及 MultiHopQA 與 FinanceBench 基準,用以支持相關任務的答案品質。
  • 多模態支援(圖像、圖表、表格):Agentset 原生支援圖像、圖表與表格,不限純文字。
  • 自動引用:答案包含引用,讓使用者檢視回應背後來源。
  • 中繼資料篩選:支援過濾索引資料子集,限制系統檢索與回答的範圍。
  • 開發者 API 與 SDK:提供 JavaScript 與 Python SDK 用於上傳資料,支持檔案格式(見下文)並有建立擷取任務的範例。
  • 廣泛檔案格式擷取:頁面列出支援 PDF、DOCX、HTML、TXT、CSV、JSON-like 來源(顯示為 HTML/TXT/CSV),以及 PPTX/XLSX 等辦公格式(依檔案類型清單)。
  • 模型與向量儲存彈性:平台為模型無關,可選擇向量資料庫、嵌入模型與 LLM。
  • MCP 伺服器整合:提供 MCP 伺服器,將知識庫連接到外部應用。

如何使用 Agentset

典型起步是在應用程式中實例化 Agentset 用戶端,建立(或使用)命名空間,並提交指向欲索引檔案的擷取任務。

接著,在產品中使用 Agentset 的搜尋或聊天介面:問題會從已擷取內容中檢索回答,並自動附加引用。若需限定回應範圍,可套用中繼資料篩選,僅考量相關資料子集。

使用案例

  • 法律搜尋與大型語料庫的產品化 AI 問答:團隊可驅動跨龐大文件集的搜尋與問答,答案基於索引內容並引用來源。
  • 臨床或研究導向的可靠答案:當精準度與可追溯性重要時,引用與可靠檢索有助使用者驗證回應對應底層文件。
  • 市政或政策內容含複雜媒體:多模態支援適用於包含圖像、圖表或表格的知識庫,純文字索引不足以因應。
  • 內部知識庫助理:組織可讓員工跨公司文件提問,必要時使用中繼資料篩選(例如部門、時間區段或其他標籤)限制檢索。
  • 反饋驅動聊天工作流程:官網提及預覽連結與可自訂聊天介面,用於快速擷取外部反饋。

常見問題

  • Agentset 支援哪些類型的應用? 針對在其他產品中提供搜尋與問答的可上線 RAG 應用。

  • Agentset 適用於展示資料以外嗎? 官網明確描述許多 RAG 展示在真實使用與大型文件集下失效的問題,並定位 Agentset 適用於生產環境。

  • Agentset 限於文字文件嗎? 否。頁面表示 Agentset 原生支援圖像、圖表與表格。

  • Agentset 包含來源歸屬嗎? 是。平台會自動引用用於答案的來源。

  • 我能使用自己的模型或向量資料庫嗎? 官網表示 Agentset 為模型無關,可選擇向量資料庫、嵌入模型與 LLM。

替代方案

  • 基於框架的 RAG 堆疊(例如,使用 RAG 函式庫與自建管線):不使用基礎設施平台,而是自行組裝擷取、檢索與答案格式化;這可能需要更多整合工作才能達到上線可靠性。
  • 託管搜尋/問答服務:這些服務可提供基本搜尋與對話的快速設定,但相較開發者導向的 RAG 平台,在多模態擷取或特定檢索/答案呈現需求上彈性較低。
  • 自架 RAG 管線搭配自訂工具:類似基於框架的方法,但通常需自行維護整個檢索/擷取基礎設施與整合。
  • 通用知識庫與文件搜尋工具,附加 AI 功能:當主要目標為文件探索時有用,但可能無法比擬 Agentset 所述的 RAG 專屬功能深度,例如自動引用與中繼資料篩選檢索。
Agentset | UStack