Agentset

Agentset 是什么？

Agentset 是一个开源基础设施平台，专为开发者构建可用于生产的 RAG（检索增强生成）应用而设计，这些应用可在自家产品中提供搜索和问答功能。重点在于让 RAG 在演示之外可靠运行——特别是在真实用户与大型文档集合交互时。

根据官网，Agentset 旨在减少搭建和维护 RAG 管道的工程工作量，提供开箱即用的生产级组件，包括摄入、检索行为以及答案呈现功能，如引用和基于元数据的过滤。

生产级 RAG 用于问答和搜索：针对真实数据和使用场景取代演示数据集时暴露的差距而构建。
带评估基准的准确答案：官网引用 MultiHopQA 和 FinanceBench 基准，支持相关任务的答案质量。
多模态支持（图像、图表、表格）：Agentset 原生支持图像、图表和表格，而非仅限于纯文本。
自动引用：答案包含引用，用户可检查响应背后的来源。
元数据过滤：支持对索引数据子集进行过滤，以限制系统检索和回答的内容。
开发者 API 和 SDK：提供 JavaScript 和 Python SDK 用于上传数据，支持的文件格式（见下文）以及创建摄入作业的示例用法。
广泛文件格式摄入：页面列出支持 PDF、DOCX、HTML、TXT、CSV、JSON-like 来源（显示为 HTML/TXT/CSV）以及 PPTX/XLSX 等办公格式（反映在文件类型列表中）。
模型与向量存储灵活性：平台描述为模型无关，可选择自己的向量数据库、嵌入模型和 LLM。
MCP 服务器集成：提供 MCP 服务器，将知识库连接到外部应用。

典型起步是在应用中实例化 Agentset 客户端，创建（或使用）命名空间，并提交指向要索引文件的摄入作业。

然后，在产品中使用 Agentset 的搜索或聊天接口：问题使用从摄入内容检索回答，自动附加引用。如需限定响应范围，可应用元数据过滤，仅考虑相关数据子集。

基于框架的 RAG 技术栈（例如，使用 RAG 库和自建管道）：不使用基础设施平台，而是自行组装摄入、检索和答案格式化；这可能需要更多集成工作才能达到生产可靠性。
托管搜索/问答服务：这些服务可为基本搜索和聊天提供更快设置，但与面向开发者的 RAG 平台相比，在多模态摄入或特定检索/答案呈现需求上灵活性可能较低。
自托管 RAG 管道结合自定义工具：类似于基于框架的方法，但通常涉及自行维护整个检索/摄入基础设施和集成。
通用知识库和文档搜索工具附带 AI 插件：当主要目标是文档发现时有用，但可能无法匹配 Agentset 所述的 RAG 特定功能深度，如自动引用和元数据过滤检索。