UStackUStack
Agentset icon

Agentset

Agentset 开源基础设施平台,助力构建可用于生产的 RAG 应用,提供带引用的 AI 搜索与问答,支持多模态摄入与元数据过滤。

Agentset

Agentset 是什么?

Agentset 是一个开源基础设施平台,专为开发者构建可用于生产的 RAG(检索增强生成)应用而设计,这些应用可在自家产品中提供搜索和问答功能。重点在于让 RAG 在演示之外可靠运行——特别是在真实用户与大型文档集合交互时。

根据官网,Agentset 旨在减少搭建和维护 RAG 管道的工程工作量,提供开箱即用的生产级组件,包括摄入、检索行为以及答案呈现功能,如引用和基于元数据的过滤。

主要特性

  • 生产级 RAG 用于问答和搜索:针对真实数据和使用场景取代演示数据集时暴露的差距而构建。
  • 带评估基准的准确答案:官网引用 MultiHopQA 和 FinanceBench 基准,支持相关任务的答案质量。
  • 多模态支持(图像、图表、表格):Agentset 原生支持图像、图表和表格,而非仅限于纯文本。
  • 自动引用:答案包含引用,用户可检查响应背后的来源。
  • 元数据过滤:支持对索引数据子集进行过滤,以限制系统检索和回答的内容。
  • 开发者 API 和 SDK:提供 JavaScript 和 Python SDK 用于上传数据,支持的文件格式(见下文)以及创建摄入作业的示例用法。
  • 广泛文件格式摄入:页面列出支持 PDF、DOCX、HTML、TXT、CSV、JSON-like 来源(显示为 HTML/TXT/CSV)以及 PPTX/XLSX 等办公格式(反映在文件类型列表中)。
  • 模型与向量存储灵活性:平台描述为模型无关,可选择自己的向量数据库、嵌入模型和 LLM。
  • MCP 服务器集成:提供 MCP 服务器,将知识库连接到外部应用。

如何使用 Agentset

典型起步是在应用中实例化 Agentset 客户端,创建(或使用)命名空间,并提交指向要索引文件的摄入作业。

然后,在产品中使用 Agentset 的搜索或聊天接口:问题使用从摄入内容检索回答,自动附加引用。如需限定响应范围,可应用元数据过滤,仅考虑相关数据子集。

使用场景

  • 法律搜索和大语料库产品化 AI 问答:团队可为广泛文档集提供搜索和问答,答案基于索引内容并引用来源。
  • 临床或研究导向的可靠答案:当准确性和可追溯性重要时,引用和可靠检索帮助用户验证响应与底层文档的一致性。
  • 包含复杂媒体的市政或政策内容:多模态支持适用于包含图像、图表或表格的知识库,纯文本索引不足以应对。
  • 内部知识库助手:组织可让员工跨公司文档提问,使用元数据过滤(例如部门、时间段或其他标签)限定检索。
  • 反馈驱动的聊天工作流:官网提及预览链接和可定制聊天界面,用于快速捕获外部反馈。

常见问题

  • Agentset 支持哪些类型的应用? 针对在其他产品中提供搜索和问答的生产就绪 RAG 应用。

  • Agentset 仅适用于演示数据吗? 官网明确描述了许多 RAG 演示在真实使用和大文档集下失效的问题,并将 Agentset 定位于生产环境。

  • Agentset 仅限于文本文档吗? 否。页面指出 Agentset 原生支持图像、图表和表格。

  • Agentset 包含来源归属吗? 是。平台描述为自动引用答案所用来源。

  • 我可以使用自己的模型或向量数据库吗? 官网表示 Agentset 模型无关,可选择自己的向量数据库、嵌入模型和 LLM。

替代方案

  • 基于框架的 RAG 技术栈(例如,使用 RAG 库和自建管道):不使用基础设施平台,而是自行组装摄入、检索和答案格式化;这可能需要更多集成工作才能达到生产可靠性。
  • 托管搜索/问答服务:这些服务可为基本搜索和聊天提供更快设置,但与面向开发者的 RAG 平台相比,在多模态摄入或特定检索/答案呈现需求上灵活性可能较低。
  • 自托管 RAG 管道结合自定义工具:类似于基于框架的方法,但通常涉及自行维护整个检索/摄入基础设施和集成。
  • 通用知识库和文档搜索工具附带 AI 插件:当主要目标是文档发现时有用,但可能无法匹配 Agentset 所述的 RAG 特定功能深度,如自动引用和元数据过滤检索。
Agentset | UStack