UStackUStack
Alconost MQM Annotation Tool icon

Alconost MQM Annotation Tool

Alconost MQM Annotation Tool 免费MQM标注工具,用于翻译质量评估:按类别与严重性标注错误、打分并从TSV/JSONL导出报告。

Alconost MQM Annotation Tool

什么是 Alconost MQM Annotation Tool?

Alconost MQM Annotation Tool 是一款基于 Web 的翻译质量评估工具,使用 MQM(Multidimensional Quality Metrics,多维度质量指标),这是一个基于错误的框架,广泛应用于 WMT 共享任务和行业基准。它支持人工参与的工作流程,按照 MQM 指南标注翻译错误,并提供系统级和段落级的标注分析。

该工具允许您上传翻译输出,按 MQM 分類法和严重性标记并分类错误,并导出结构化结果用于下游评估。它还将 MQM 标注转换为标准化质量分数(%),通过使用 XLM-R SentencePiece 标记计数量化翻译长度,实现跨语言的可比性。

主要功能

  • 翻译输出的 MQM 指南错误标注:标注明确的错误类别和严重性,而非仅使用整体分数。
  • MQM 分類覆盖细粒度类别和严重性:包括 Accuracy(准确性)、Fluency(流畅性)和 Terminology(术语)等类别,严重性级别包括 Minor(轻微)、Major(重大)和 Critical(严重)。
  • 结构化导出用于分析:以 TSV/CSV(表格)和 JSONL(行分隔 JSON)等格式导出标注数据,支持系统级和段落级报告。
  • 报告与分析:包括项目评分和洞察视图,如错误分布图表和会话时间估算。
  • 基于标记标准化的自动评分:计算总惩罚值为 Σ(错误数量 × 错误权重),并根据总标记数量推导质量分数(%);通过/失败阈值和错误权重可配置。
  • API 集成用于导入/导出工作流:提供 REST API,用于创建项目、导入内容和导出标注结果(JSONL、TSV、CSV)。

如何使用 Alconost MQM Annotation Tool

  1. 在工具中创建或启动 MQM 标注项目。
  2. 上传包含源文和目标翻译的数据(可选包括段落 ID、系统 ID 和文档 ID)。
  3. 使用 MQM 类别和严重性级别标注错误。要标记段落已检查且无错误,请添加“no-error”标注。
  4. 查看项目报告(包括评分和错误分布)并导出标注数据用于分析。

对于自动化,请使用提供的 REST API 以编程方式导入段落并以 JSONL、TSV 或 CSV 格式导出结果。

使用场景

  • 人工翻译质量评估:语言学家标注具体的 MQM 错误类型(例如 Accuracy/Addition、Fluency/Grammar),生成可审计的错误配置文件。
  • 机器翻译系统比较:可标注多个系统输出,并使用标准化质量分数和错误分布报告进行比较。
  • LLM 或神经 MT 评估工作流:使用相同的 MQM 分類标注神经/LLM 机器翻译输出,以保持评估一致性。
  • 回归测试和错误分析:通过导出结构化标注,跟踪模型版本间特定错误类别的变化。
  • 供应商或内部 QA 审查(盲标注):让标注者完成 MQM 错误标注,为翻译质量审查提供客观依据。

常见问题

支持哪些输入格式?
工具的结构化格式示例包括 TSV(表格)和 JSONL(行分隔 JSON)。它还支持通过 REST API 导入 CSV/TSV/JSONL 和原始 JSON。

质量分数(%)如何计算?
工具使用错误数量和错误权重计算标注错误的总惩罚值,然后使用 XLM-R SentencePiece 标记的总标记数量进行归一化。默认严重性权重为 Critical: 25、Major: 5、Minor: 1,默认通过阈值为 99.0% 或更高;通过/失败阈值和权重均可调整。

如何记录段落无错误?
添加类别为 no-error 的标注,使段落被计为已检查且正确,而非跳过或待处理。

可以为标注者提供额外上下文吗?
可以。context 字段可用于在标注界面显示额外信息(例如术语表、参考链接、风格规则)。

可以将 MQM 标注集成到自动化工作流中吗?
可以。工具提供带有 OpenAPI 规范的 REST API,用于自动化导入和导出项目及标注结果。

替代方案

  • MQM 标注工具(开源或自托管):如果您希望类似 MQM 分類法和标注流程,但自行管理基础设施,开源 MQM 启发的工具可能适合;主要区别在于流程控制和设置责任。
  • 通用的翻译错误分析工具,支持自定义标签集:电子表格或 UI 工具可支持错误标注,但您需自行定义分类法/权重和评分逻辑,而非使用 MQM 专用模型。
  • 仅支持导出的标注平台:支持标注任务和结构化导出的平台可复制“人工参与”部分,但可能无法开箱即用提供 MQM 特定类别/严重性结构和令牌归一化评分。
  • 仅专注评分的质量评估仪表板:某些工具专注计算质量指标,但缺少 MQM 式分类错误标注和结构化导出,可能无法支持同等细粒度的错误分析。