Alconost MQM Annotation Tool

Alconost MQM Annotation Tool이란?

Alconost MQM Annotation Tool은 WMT 공유 작업 및 산업 벤치마크에서 사용되는 오류 기반 프레임워크인 MQM(Multidimensional Quality Metrics)을 활용한 번역 품질 평가 웹 기반 도구입니다. MQM 지침에 따라 번역 오류를 주석 처리하는 인간-인-더-루프 워크플로우와 주석의 시스템 수준 및 세그먼트 수준 분석을 지원합니다.

이 도구를 사용하면 번역 출력을 업로드하고 MQM 분류법 및 심각도에 따라 오류를 표시·분류하며, 다운스트림 평가를 위한 구조화된 결과를 내보낼 수 있습니다. 또한 MQM 주석을 XLM-R SentencePiece 토큰을 사용해 번역 길이를 고려하여 언어 간 비교 가능한 정규화된 Quality Score(%)로 변환합니다.

주요 기능

번역 출력에 대한 MQM 지침 오류 주석: 전체 점수만 사용하는 대신 명시적 오류 카테고리와 심각도를 주석 처리합니다.
세분화된 카테고리와 심각도를 포함한 MQM 분류법 커버리지: Accuracy, Fluency, Terminology 등의 카테고리와 Minor, Major, Critical 등의 심각도 수준을 포함합니다.
분석을 위한 구조화된 내보내기: 시스템 및 세그먼트 수준 보고를 지원하는 TSV/CSV(표 형식) 및 JSONL(라인 구분 JSON) 형식으로 주석 데이터를 내보냅니다.
보고 및 분석: 프로젝트 점수와 오류 분포 차트, 세션 시간 추정 등의 인사이트 뷰를 포함합니다.
토큰 정규화된 패널티 기반 자동 점수화: 총 패널티를 Σ(오류 수 × 오류 가중치)로 계산하고 총 토큰 수로 Quality Score(%)를 도출합니다. 합격/불합격 임계값과 오류 가중치는 사용자 설정 가능합니다.
가져오기/내보내기 워크플로우를 위한 API 통합: 프로젝트 생성, 콘텐츠 가져오기, 주석 결과 내보내기(JSONL, TSV, CSV)를 위한 REST API를 제공합니다.

Alconost MQM Annotation Tool 사용 방법

도구에서 MQM 주석 프로젝트를 생성하거나 시작합니다.
소스 및 타겟 번역이 포함된 데이터를 업로드합니다(세그먼트 ID, 시스템 ID, 문서 ID는 선택 사항).
MQM 카테고리와 심각도 수준을 사용해 오류를 주석 처리합니다. 오류가 없는 세그먼트를 확인된 것으로 표시하려면 “no-error” 주석을 추가합니다.
프로젝트 보고(점수 및 오류 분포 포함)를 검토하고 분석을 위해 주석 데이터를 내보냅니다.

자동화를 위해 제공된 REST API를 사용해 세그먼트를 프로그래밍 방식으로 가져오고 JSONL, TSV 또는 CSV로 결과를 내보낼 수 있습니다.

사용 사례

인간 번역 품질 평가: 언어학자들이 특정 MQM 오류 유형(예: Accuracy/Addition, Fluency/Grammar)을 주석 처리하여 감사 가능한 오류 프로필을 생성합니다.
기계 번역 시스템 비교: 여러 시스템 출력을 주석 처리하고 정규화된 Quality Score 및 오류 분포 보고를 사용해 비교합니다.
LLM 또는 신경 MT 평가 워크플로우: 동일한 MQM 분류법을 사용해 신경/LLM 기반 MT의 번역 출력을 주석 처리하여 평가 일관성을 유지합니다.
회귀 테스트 및 오류 분석: 구조화된 주석을 내보내 모델 버전 간 특정 오류 카테고리 변화를 추적합니다.
벤더 또는 내부 QA 리뷰(블라인드 주석 포함): 주석자가 MQM 오류 주석을 완료하여 번역 품질 리뷰의 객관적 기반을 만듭니다.

자주 묻는 질문

지원 입력 형식은 무엇인가요? 도구의 구조화된 형식 예시는 TSV(표 형식)와 JSONL(라인 구분 JSON)을 포함합니다. REST API를 통해 CSV/TSV/JSONL 및 원시 JSON 가져오기도 지원합니다.

Quality Score(%)는 어떻게 작동하나요? 도구는 주석 오류의 오류 수와 가중치를 사용해 총 패널티를 계산한 후 XLM-R SentencePiece 토큰으로 총 토큰 수를 정규화합니다. 기본 심각도 가중치는 Critical: 25, Major: 5, Minor: 1이며, 기본 합격 임계값은 99.0% 이상입니다. 합격/불합격 및 가중치는 조정 가능합니다.

세그먼트에 오류가 없음을 어떻게 기록하나요? no-error 카테고리의 주석을 추가하여 세그먼트가 건너뛰거나 대기 중이 아닌 확인되고 올바른 것으로 계산되도록 합니다.

주석자에게 추가 컨텍스트를 포함할 수 있나요? 네. context 필드를 제공하면 주석 인터페이스에 추가 정보(예: 용어집 용어, 참조 링크, 스타일 규칙)를 표시할 수 있습니다.

MQM 주석을 자동화된 워크플로우에 통합할 수 있나요? 네. 도구는 프로젝트 및 주석 결과의 자동 가져오기/내보내기를 위한 OpenAPI 사양이 포함된 REST API를 제공합니다.

대안

MQM 어노테이션 도구 (오픈소스 또는 자체 호스팅): 유사한 MQM 분류 체계와 어노테이션 워크플로를 원하지만 인프라를 직접 관리하고 싶다면, 오픈 MQM 기반 도구가 적합할 수 있습니다. 주요 차이점은 워크플로 제어와 설정 책임입니다.
사용자 지정 태그 세트가 있는 범용 번역 오류 분석: 스프레드시트 또는 UI 기반 도구로 오류 어노테이션을 지원할 수 있지만, MQM 중심 모델 대신 자체 분류 체계/가중치 및 점수 로직을 정의해야 합니다.
내보내기 전용 파이프라인을 가진 어노테이션 플랫폼: 라벨링 작업과 구조화된 내보내기를 지원하는 플랫폼은 “인간-루프” 부분을 재현할 수 있지만, MQM 특정 카테고리/심각도 구조와 토큰 정규화 점수를 기본 제공하지 않을 수 있습니다.
점수 계산에 초점을 맞춘 품질 평가 대시보드: 일부 도구는 품질 지표 계산에 집중하지만, MQM 스타일의 범주 오류 어노테이션과 구조화된 내보내기가 없어 오류 분석의 동일한 세밀함을 지원하지 않을 수 있습니다.