Agentset

Agentset 是什麼？

Agentset 是開發者用來打造可上線 RAG（檢索增強生成）應用程式的開源基礎設施平台，這些應用可在自家產品中提供搜尋與問答功能。重點在於讓 RAG 在超出展示階段時表現可靠—特別是當真實使用者與大型文件集合互動時。

根據官網，Agentset 旨在透過「開箱即用」的生產級元件，減少架設與維護 RAG 管線的工程工作，包括擷取、檢索行為，以及答案呈現功能如引用與中繼資料篩選。

生產級 RAG 用於問答與搜尋：針對真實資料與使用取代展示資料集時出現的缺口而建置。
精準答案與評估基準：官網提及 MultiHopQA 與 FinanceBench 基準，用以支持相關任務的答案品質。
多模態支援（圖像、圖表、表格）：Agentset 原生支援圖像、圖表與表格，不限純文字。
自動引用：答案包含引用，讓使用者檢視回應背後來源。
中繼資料篩選：支援過濾索引資料子集，限制系統檢索與回答的範圍。
開發者 API 與 SDK：提供 JavaScript 與 Python SDK 用於上傳資料，支持檔案格式（見下文）並有建立擷取任務的範例。
廣泛檔案格式擷取：頁面列出支援 PDF、DOCX、HTML、TXT、CSV、JSON-like 來源（顯示為 HTML/TXT/CSV），以及 PPTX/XLSX 等辦公格式（依檔案類型清單）。
模型與向量儲存彈性：平台為模型無關，可選擇向量資料庫、嵌入模型與 LLM。
MCP 伺服器整合：提供 MCP 伺服器，將知識庫連接到外部應用。

典型起步是在應用程式中實例化 Agentset 用戶端，建立（或使用）命名空間，並提交指向欲索引檔案的擷取任務。

接著，在產品中使用 Agentset 的搜尋或聊天介面：問題會從已擷取內容中檢索回答，並自動附加引用。若需限定回應範圍，可套用中繼資料篩選，僅考量相關資料子集。

基於框架的 RAG 堆疊（例如，使用 RAG 函式庫與自建管線）：不使用基礎設施平台，而是自行組裝擷取、檢索與答案格式化；這可能需要更多整合工作才能達到上線可靠性。
託管搜尋/問答服務：這些服務可提供基本搜尋與對話的快速設定，但相較開發者導向的 RAG 平台，在多模態擷取或特定檢索/答案呈現需求上彈性較低。
自架 RAG 管線搭配自訂工具：類似基於框架的方法，但通常需自行維護整個檢索/擷取基礎設施與整合。
通用知識庫與文件搜尋工具，附加 AI 功能：當主要目標為文件探索時有用，但可能無法比擬 Agentset 所述的 RAG 專屬功能深度，例如自動引用與中繼資料篩選檢索。