UStackUStack
DataSieve: Text to Data icon

DataSieve: Text to Data

DataSieve:Text to Data 可从文本和多种文件中提取邮件、日期、URL 等结构化信息,并在 iPhone/iPad/Mac 上完全离线运行。

DataSieve: Text to Data

DataSieve 是什么?

DataSieve: Text to Data 是一款适用于 iPhone、iPad 和 Mac 的离线应用,可从非结构化文本和文件中提取结构化信息。它会扫描您提供的输入(如文档、存档或代码/日志文本),提取邮件、日期、URL 等数据类型。

核心目的是帮助您快速将杂乱或混合内容来源转化为更清晰、有组织的输出,使用本地处理(无云端、无数据共享)。

主要功能

  • 一次扫描提取多种数据类型(如邮件、电话号码、URL、日期),适用于输入包含混合信息的情况。
  • 支持多种输入来源,包括纯文本和基于文件的输入,如 JSON、HTML、CSV、XLSX、ODS、DOCX/ODT、PDF、EPUB,以及 ZIP/其他存档。
  • 通过拖放进行批量处理:可将文件或文件夹拖入应用,从多个项目中提取数据。
  • 存档支持:可处理 ZIP 和其他存档,通过提取并扫描内部文件。
  • 自定义提取类型(2.1 版):定义并保存您自己的数据模式,精确提取所需内容。
  • 提取结果导出选项:复制为文本/JSON/HTML,或导出为 CSV、XLSX、DOCX、ODS 或 ODT。
  • 设计注重隐私:DataSieve 完全离线运行——无云端、无跟踪、无数据共享。

如何使用 DataSieve

  1. 打开 DataSieve,通过粘贴/选择文本或拖放添加文件、文件夹或存档来提供输入。
  2. 开始提取,扫描输入中的支持数据类型(或使用您已设置的自定义提取类型)。
  3. 查看提取结果,并使用复制(文本/JSON/HTML)或文件导出格式(CSV/XLSX/DOCX/ODS/ODT)导出。

使用场景

  • 从混合来源提取联系信息:从文本片段或文档中提取邮件和电话号码,无需手动搜索。
  • 解析报告、PDF 或 EPUB 中的关键细节:定位文档内容中的日期、地址、URL 和相关项目。
  • 清理批量数据以进行分析:从多个文件(包括文件夹)中提取并整合字段至结构化输出。
  • 从代码/日志材料中提取结构化信息:扫描 JSON/HTML/CSV 和文本日志,识别 URL、关键词、文件路径等元素。
  • 构建可重复提取工作流:创建自定义提取模式(2.1 版),针对您经常遇到的特定格式。

常见问题

  • DataSieve 是基于云端的吗? 不是。应用描述为完全离线运行,无云端、无跟踪、无数据共享。

  • 它能处理哪些类型的文件? App Store 列表中包括对文本、JSON、HTML、CSV、XLSX、ODS、Word(DOCX/ODT)、PDF、EPUB、ZIP 和其他存档以及文件夹的支持。

  • 它能提取什么? 列表中提到邮件、电话号码、URL、日期、地址、标签、坐标、信用卡号、关键词和文件路径等项目。

  • 如何保存提取结果? 您可以复制提取数据为文本、JSON 或 HTML,或导出为 CSV、XLSX、DOCX、ODS 或 ODT。

  • 我可以定义自己的提取模式吗? 可以。在 2.1 版中,应用新增了通过定义并保存数据模式来创建自定义提取类型的能力。

替代方案

  • 文本/数据提取工具(通用类别):替代方案可能专注于基于正则表达式的文本提取,灵活但可能需要比 DataSieve 的文件和存档扫描更多的手动设置。
  • 电子表格或文档工作流(CSV/Excel/Sheets + 解析):对于某些任务,导出到电子表格并使用内置解析可行,但通常需先准备输入,而不是直接从文档/存档提取。
  • 本地文档解析脚本/工具(开发者类别):脚本可从 PDF/存档中提取特定字段,但通常需要编码和更自定义的工作流来处理多种文件类型和输出。
  • OCR/文档挖掘工具(相邻类别):对于包含扫描图像或复杂布局的文档,专注于 OCR 的工具可能更合适,而 DataSieve 强调从提供的文本和支持文件格式中提取。
DataSieve: Text to Data | UStack