UStackUStack
Extend icon

Extend

Extend는 복잡한 문서를 구조화된 데이터로 파싱, 추출, 분할하는 문서 처리 플랫폼입니다. 레이아웃 인식 파싱, 검증, 워크플로 오케스트레이션이 필요한 프로덕션 파이프라인 팀에 적합합니다.

Extend

Extend란 무엇인가요?

Extend는 PDF와 기타 복잡한 문서를 구조화된 데이터로 변환하는 문서 처리 플랫폼입니다. 프로덕션 पाइ프라인을 위해 설계된 특화 파싱 및 워크플로 도구를 사용해 문서 콘텐츠를 파싱, 추출, 분할, 검증, 라우팅할 수 있도록 구축되었습니다.

이 제품은 레이아웃, 읽기 순서, 필드 간 관계, 그리고 최종 답변 품질이 중요한 문서에 초점을 맞춥니다. 사이트에 따르면 파싱 API, 워크플로 오케스트레이션, 검토 및 신뢰도 도구, 그리고 수동 스크립트에만 의존하지 않고 스키마를 만들고 평가할 수 있는 Studio를 포함합니다.

주요 기능

  • 레이아웃 우선 파싱 API: 문서의 구조가 추출 데이터에 영향을 미치는 경우 중요한 레이아웃과 읽기 순서에 초점을 맞춰 까다로운 문서를 파싱합니다.
  • 추출 및 분할 워크플로: 단일 문서 파싱뿐 아니라 더 넓은 파이프라인의 일부로 문서 파싱, 추출, 분할을 지원합니다.
  • 신뢰도 점수 및 다중 패스 검토: 결과를 확인하고 잠재적 오류를 검토 대상으로 표시해 운영 전 불확실성을 식별합니다.
  • 처리 모드: 낮은 지연 시간, 비용 최적화, 최고 정확도 모드를 제공해 팀이 작업 부하에 맞는 균형점을 선택할 수 있습니다.
  • Composer Agent: 예시 문서를 사용해 문제를 식별하고, 스키마를 다듬고, 수동 프롬프트 반복을 줄이면서 추출 품질을 개선합니다.
  • 엔드투엔드 오케스트레이션: 검증, 라우팅, 버전 관리, 내구성을 포함한 다단계 문서 워크플로를 지원합니다.
  • Studio와 evals: CLI 스크립트에만 의존하지 않고 스키마를 반복 개선하고, 평가를 실행하고, 회귀를 잡아내는 UI를 제공합니다.
  • 자체 호스팅 배포 옵션: 민감한 문서를 위해 팀 자체 인프라에서 실행할 수 있습니다.

Extend 사용 방법

일반적인 워크플로는 샘플 문서를 업로드하고 추출할 필드 또는 스키마를 정의하는 것부터 시작합니다. 그런 다음 팀은 파싱 API 또는 Studio 인터페이스를 사용해 결과를 테스트하고, 평가를 실행하고, 필요하면 Composer로 스키마를 다듬을 수 있습니다.

그다음에는 처리 모드를 선택하고, 신뢰도 검사나 검토 단계를 추가하고, 파서를 더 큰 워크플로에 연결해 문서 데이터를 검증하고 라우팅할 수 있습니다. 배포 시에는 클라우드 제품을 사용하거나, 문서를 사내에 보관해야 한다면 자체 호스팅할 수 있습니다.

사용 사례

  • 금융 문서 पाइ프라인: 레이아웃과 필드 관계가 후속 처리에 영향을 주는 송장, 명세서 또는 기타 금융 문서에서 구조화된 필드를 추출합니다.
  • 의료 문서 처리: 워크플로에서 사용하기 전에 검증과 세심한 검토가 필요한 규제 대상 또는 중요 문서를 처리합니다.
  • 대규모 일괄 추출: 반복 가능한 작업을 위해 비용 최적화 모드와 워크플로 오케스트레이션을 사용해 대량의 페이지를 처리합니다.
  • 실시간 문서 접수: 들어오는 문서에 빠른 처리 시간이 필요한 애플리케이션에서 낮은 지연 시간 처리 모드를 사용합니다.
  • 스키마 개발 및 평가: 도메인 전문가가 추출 스키마를 반복 개선하고, evals를 실행하고, 변경 사항 배포 전에 회귀를 확인하도록 합니다.

FAQ

Extend는 PDF만 파싱하나요? 소스에서는 PDF와 기타 다루기 어려운 문서를 위한 문서 처리 플랫폼이라고 설명하지만, 지원 파일 형식의 전체 목록은 제공하지 않습니다.

프로덕션 워크플로에서 사용할 수 있나요? 네. 사이트는 프로덕션용 문서 처리, 오케스트레이션, 버전 관리, 내구성, 그리고 검토를 위한 신뢰도 점수를 강조합니다.

불확실한 결과를 검토할 방법이 있나요? 네. Extend에는 운영 전에 잠재적 오류를 표시할 수 있는 신뢰도 점수와 다중 패스 검토 에이전트가 포함되어 있습니다.

팀 자체 인프라에서 실행할 수 있나요? 네. 사이트는 민감한 문서를 사내에 보관해야 하는 팀을 위해 Extend가 자체 호스팅 배포를 제공한다고 설명합니다.

추출 품질을 테스트하는 도구가 있나요? 네. 이 제품에는 스키마를 반복 개선하고 회귀를 잡아내기 위한 Studio와 evals 워크플로가 포함되어 있습니다.

대안

  • 일반 OCR 또는 문서 추출 API: 이런 도구는 보통 텍스트 인식과 기본 필드 추출에 중점을 두지만, 워크플로 오케스트레이션이나 스키마 반복 지원은 상대적으로 약할 수 있습니다.
  • 사용자 정의 LLM 기반 문서 파이프라인: 팀은 파운데이션 모델로 자체 추출 시스템을 구축할 수 있지만, 일반적으로 평가, 신뢰도 처리, 오케스트레이션에 더 많은 엔지니어링이 필요합니다.
  • 전통적인 IDP 플랫폼: 오래된 지능형 문서 처리 시스템은 보통 캡처와 규칙 기반 워크플로를 강조하는 반면, Extend는 모델 기반 파싱과 개발자 지향 파이프라인 구축에 중심을 두는 것으로 보입니다.
  • 오픈소스 파싱 스택: 시작 비용이 낮고 유연할 수 있지만, 검토, 평가, 프로덕션 안정성을 위해 보통 더 많은 조립 작업이 필요합니다.
Extend | UStack