UStackUStack
Extend icon

Extend

Extend 是一款文档处理平台,可解析、提取并拆分复杂文档为结构化数据,适合需要布局感知解析、校验和工作流编排的生产级团队。

Extend

什么是 Extend?

Extend 是一款文档处理平台,可将 PDF 和其他复杂文档转换为结构化数据。它专为生产级流水线设计,借助专门的解析和工作流工具来解析、提取、拆分、校验并路由文档内容。

该产品聚焦于那些布局、阅读顺序、字段关系以及下游答案质量都很重要的文档。根据网站介绍,它包含解析 API、工作流编排、审阅和置信度工具,以及一个无需完全依赖手写脚本即可构建和评估 schema 的 Studio。

主要功能

  • 以布局优先的解析 API:以布局和阅读顺序为重点解析复杂文档,这在页面结构会影响提取数据时尤为重要。
  • 提取与拆分工作流:作为更大流水线的一部分,支持文档解析、提取和拆分,而不只是单文档解析。
  • 置信度评分与多轮审阅:在生产前通过检查输出并暴露潜在错误来标记不确定性,便于审核。
  • 处理模式:提供低延迟、成本优化和最高准确率模式,团队可按工作负载选择合适的取舍。
  • Composer Agent:使用示例文档识别问题、优化 schema,并以更少的手动提示迭代提升提取质量。
  • 端到端编排:支持带有校验、路由、版本控制和持久性的多步骤文档工作流。
  • Studio 和评测:提供用于迭代 schema、运行评测和发现回归的 UI,而不必仅依赖 CLI 脚本。
  • 自托管部署选项:可在团队自有基础设施上运行,适用于敏感文档。

如何使用 Extend

典型流程是先上传样本文档,并定义想要提取的字段或 schema。随后,团队可以使用解析 API 或 Studio 界面测试输出、运行评测,并在需要时借助 Composer 优化 schema。

之后,用户可以选择处理模式,添加置信度检查或审阅步骤,并将解析器接入更大的工作流,对文档数据进行校验和路由。部署方面,团队既可以使用云产品,也可以在文档必须留在内网时选择自托管。

使用场景

  • 金融文档流水线:从发票、对账单或其他金融文档中提取结构化字段,因为布局和字段关系会影响下游处理。
  • 医疗文档处理:处理受监管或高风险文档,在进入工作流前进行校验和仔细审阅。
  • 大规模批量提取:使用成本优化模式和工作流编排处理海量页面,适合可重复任务。
  • 实时文档接入:为需要快速处理来件文档的应用使用低延迟处理模式。
  • schema 开发与评估:让领域专家迭代提取 schema、运行评测,并在发布变更前检查回归。

常见问题

Extend 只解析 PDF 吗? 来源将其描述为用于 PDF 和其他难处理文档的文档处理平台,但未列出完整支持的文件类型。

它可以用于生产工作流吗? 可以。网站强调其面向生产的文档处理、编排、版本控制、持久性和用于审阅的置信度评分。

有没有办法审阅不确定的输出? 有。Extend 包含置信度评分和多轮审阅代理,可在生产使用前标记潜在错误。

团队可以在自己的基础设施上运行吗? 可以。网站说明 Extend 提供自托管部署,适合需要将敏感文档保留在内网的团队。

它是否包含用于测试提取质量的工具? 是的。该产品包含 Studio 和评测工作流,用于迭代 schema 并发现回归。

替代方案

  • 通用 OCR 或文档提取 API:这类工具通常侧重文本识别和基础字段提取,但工作流编排或 schema 迭代支持可能较弱。
  • 基于 LLM 的自定义文档流水线:团队可以借助基础模型搭建自己的提取系统,但通常需要更多工程工作来处理评估、置信度和编排。
  • 传统 IDP 平台:较早期的智能文档处理系统往往强调采集和基于规则的工作流,而 Extend 则更侧重模型驱动的解析和面向开发者的流水线构建。
  • 开源解析栈:这类方案起步时更灵活、成本也更低,但通常需要更多整合工作来支持审核、评测和生产级稳定性。