UStackUStack
Alconost MQM Annotation Tool icon

Alconost MQM Annotation Tool

Alconost MQM Annotation Tool: herramienta gratuita para evaluar la calidad de traducción con anotaciones MQM, categorización de errores y exportación desde TSV/JSONL.

Alconost MQM Annotation Tool

¿Qué es Alconost MQM Annotation Tool?

Alconost MQM Annotation Tool es una herramienta web para evaluar la calidad de traducción usando MQM (Multidimensional Quality Metrics), un marco basado en errores utilizado en tareas compartidas de WMT y benchmarks de la industria. Admite flujos de trabajo con intervención humana para anotar errores de traducción según las directrices MQM, así como análisis a nivel de sistema y segmento de esas anotaciones.

La herramienta te permite cargar salidas de traducción, marcar y categorizar errores por taxonomía MQM y gravedad, y exportar resultados estructurados para evaluación posterior. También convierte anotaciones MQM en una Quality Score (%) normalizada, pensada para ser comparable entre idiomas al tener en cuenta la longitud de traducción usando tokens XLM-R SentencePiece.

Características principales

  • Anotación de errores con directrices MQM para salidas de traducción: anota categorías de errores explícitas y gravedades en lugar de usar solo puntuaciones holísticas.
  • Cobertura de taxonomía MQM con categorías y gravedades granulares: incluye categorías como Accuracy, Fluency y Terminology, con niveles de gravedad como Minor, Major y Critical.
  • Exportaciones estructuradas para análisis: exporta datos anotados en formatos como TSV/CSV (tabular) y JSONL (JSON delimitado por líneas) para informes a nivel de sistema y segmento.
  • Informes y análisis: incluye puntuación de proyectos y vistas de insights como gráficos de distribución de errores y estimaciones de tiempo de sesión.
  • Puntuación automática basada en penalizaciones normalizadas por tokens: calcula penalización total como Σ(cuenta de errores × peso de error) y deriva Quality Score (%) del conteo total de tokens; umbral de aprobación/rechazo y pesos de errores son configurables.
  • Integración API para flujos de importación/exportación: proporciona una REST API para crear proyectos, importar contenido y exportar resultados anotados (JSONL, TSV, CSV).

Cómo usar Alconost MQM Annotation Tool

  1. Crea o inicia un proyecto de anotación MQM en la herramienta.
  2. Carga tus datos con traducciones fuente y objetivo (y opcionalmente IDs de segmento, IDs de sistema e IDs de documento).
  3. Anota errores usando categorías MQM y niveles de gravedad. Para marcar un segmento como revisado sin errores, añade una anotación “no-error”.
  4. Revisa los informes del proyecto (incluyendo puntuación y distribuciones de errores) y exporta los datos anotados para análisis.

Para automatización, usa la REST API proporcionada para importar segmentos programáticamente y exportar resultados en JSONL, TSV o CSV.

Casos de uso

  • Evaluación de calidad de traducción humana: lingüistas anotan tipos de errores MQM específicos (p. ej., Accuracy/Addition, Fluency/Grammar) para generar un perfil de errores auditable.
  • Comparación de sistemas de traducción automática: salidas de múltiples sistemas se pueden anotar y comparar usando Quality Score normalizada e informes de distribución de errores.
  • Flujos de evaluación de MT neuronal o LLM: anota salidas de traducción de MT basada en neuronal/LLM usando la misma taxonomía MQM para mantener evaluaciones consistentes.
  • Pruebas de regresión y análisis de errores: rastrea cómo cambian categorías de errores específicas entre versiones de modelos exportando anotaciones estructuradas.
  • Revisión QA de proveedores o interna con anotación ciega: un anotador completa anotación de errores MQM para crear una base objetiva de revisión de calidad de traducción.

Preguntas frecuentes

¿Qué formatos de entrada se admiten?
Los ejemplos de formato estructurado de la herramienta incluyen TSV (tabular) y JSONL (JSON delimitado por líneas). También admite importar CSV/TSV/JSONL y JSON crudo vía REST API.

¿Cómo funciona la Quality Score (%)?
La herramienta calcula una penalización total de errores anotados usando conteos y pesos de errores, luego normaliza por conteo total de tokens con tokens XLM-R SentencePiece. Los pesos de gravedad predeterminados son Critical: 25, Major: 5, Minor: 1, y el umbral de aprobación predeterminado es 99.0% o superior; tanto aprobación/rechazo como pesos son ajustables.

¿Cómo registro que un segmento no tiene errores?
Añade una anotación con la categoría no-error para que el segmento se cuente como revisado y correcto en lugar de omitido o pendiente.

¿Puedo incluir contexto adicional para anotadores?
Sí. El campo context se puede proporcionar para mostrar información extra en la interfaz de anotación (p. ej., términos de glosario, enlaces de referencia, reglas de estilo).

¿Puedo integrar anotación MQM en un flujo automatizado?
Sí. La herramienta proporciona una REST API con especificación OpenAPI para importación y exportación automatizadas de proyectos y resultados anotados.

Alternativas

  • Herramientas de anotación MQM (abiertas o autoalojadas): si quieres una taxonomía MQM similar y un flujo de anotación equivalente pero gestionas la infraestructura tú mismo, las herramientas abiertas inspiradas en MQM pueden encajar; la principal diferencia es el control del flujo de trabajo y la responsabilidad de configuración.
  • Análisis general de errores de traducción con conjuntos de etiquetas personalizados: herramientas basadas en hojas de cálculo o UI pueden soportar anotación de errores, pero tendrías que definir tu propia taxonomía/ponderación y lógica de puntuación en lugar de usar un modelo centrado en MQM.
  • Plataformas de anotación con pipelines solo de exportación: plataformas que soportan tareas de etiquetado y exportaciones estructuradas pueden replicar la parte de “human-in-the-loop”, pero pueden no ofrecer estructuras de categoría/severidad específicas de MQM y puntuación normalizada por tokens de forma nativa.
  • Dashboards de evaluación de calidad enfocados solo en puntuación: algunas herramientas se centran en calcular métricas de calidad, pero sin anotación categórica de errores al estilo MQM y exportaciones estructuradas pueden no ofrecer la misma granularidad para el análisis de errores.