UStackUStack
Voxtral favicon

Voxtral

Voxtral es una plataforma avanzada de reconocimiento de voz a texto que ofrece transcripción en tiempo real y por lotes con diarización, soporte multilingüe y baja latencia, adecuada para uso empresarial y de desarrolladores.

Voxtral

¿Qué es Voxtral?

¿Qué es Voxtral?

Voxtral es una solución avanzada de reconocimiento de voz a texto desarrollada por Mistral AI, diseñada para ofrecer servicios de transcripción en tiempo real y por lotes con alta precisión. Aprovecha modelos de última generación para proporcionar una calidad de transcripción líder en la industria, diarización de hablantes y procesamiento de baja latencia, siendo adecuada para una amplia gama de aplicaciones basadas en voz. La suite de Voxtral incluye modelos tanto para transcripción por lotes como en vivo, optimizados para diferentes casos de uso, y está diseñada pensando en la privacidad y la eficiencia.

La plataforma se distingue por su capacidad para manejar transcripciones multilingües en 13 idiomas, soporte para grabaciones de audio largas de hasta tres horas, y por ofrecer modelos de código abierto bajo la licencia Apache 2.0. También cuenta con un intuitivo espacio de prueba de audio en Mistral Studio, que permite a los usuarios probar y experimentar con las funcionalidades de transcripción de forma instantánea. Ya sea para despliegue empresarial, producción de medios o aplicaciones de voz en tiempo real, Voxtral busca transformar la forma en que las organizaciones utilizan los datos de voz.

Características principales

  • Voxtral Mini Transcribe V2: Transcripción por lotes de última generación con diarización de hablantes, sesgo de contexto y marcas de tiempo a nivel de palabra en 13 idiomas.
  • Voxtral Realtime: Diseñado específicamente para transcripción en vivo con una latencia configurable hasta por debajo de 200 ms, ideal para agentes de voz y aplicaciones en tiempo real.
  • Precisión líder en la industria: Logra las tasas de error de palabras más bajas en múltiples idiomas y dominios, superando a competidores como GPT-4o mini Transcribe y Deepgram Nova.
  • Modelo de pesos abiertos: Modelo en tiempo real disponible bajo la licencia Apache 2.0, desplegable en dispositivos edge para aplicaciones que requieren privacidad.
  • Soporte multilingüe: Excelente rendimiento en transcripción en 13 idiomas, incluyendo inglés, chino, hindi, español, árabe, y más.
  • Eficiente y rentable: Ofrece alta precisión a una fracción del costo, con velocidades de procesamiento aproximadamente tres veces más rápidas que algunos competidores.
  • Funciones empresariales: Incluye diarización de hablantes, sesgo de contexto para vocabulario específico del dominio y marcas de tiempo precisas a nivel de palabra.
  • Manejo robusto del ruido: Mantiene la precisión en entornos acústicos desafiantes como fábricas, centros de llamadas y grabaciones al aire libre.
  • Procesamiento de audio largo: Capaz de transcribir grabaciones de hasta 3 horas en una sola solicitud.
  • Espacio de prueba de audio: Una herramienta interactiva en Mistral Studio para subir, probar y personalizar configuraciones de transcripción al instante.

Cómo usar Voxtral

Comenzar con Voxtral es sencillo. Los usuarios pueden acceder a la plataforma a través de Mistral Studio, donde pueden subir archivos de audio en formatos como MP3, WAV, M4A, FLAC o OGG, con cada archivo hasta 1GB. Para transcripciones por lotes, suba su audio, seleccione el idioma deseado y elija opciones como diarización, marcas de tiempo y sesgo de contexto. El sistema procesa el audio y proporciona transcripciones con etiquetas de hablantes, marcas de tiempo y vocabulario específico del dominio si se configura.

Para aplicaciones en tiempo real, los desarrolladores pueden integrar Voxtral Realtime en sus sistemas habilitados para voz. La arquitectura de transmisión del modelo permite transcripciones con una latencia configurable por debajo de 200 milisegundos. La implementación puede ser en la nube o en dispositivos edge, gracias a los pesos de código abierto, lo que permite soluciones centradas en la privacidad.

El espacio de prueba de audio en Mistral Studio permite a los usuarios probar los modelos al instante subiendo archivos de muestra, activando funciones y ajustando configuraciones para ver resultados en tiempo real. Esto facilita a desarrolladores y empresas evaluar la tecnología antes de su integración.

Casos de uso

  • Transcripción de reuniones y conferencias: Transcribe automáticamente reuniones, seminarios web y conferencias con diarización de hablantes y marcas de tiempo para facilitar la referencia.
  • Atención al cliente y centros de llamadas: Permite la transcripción en tiempo real de llamadas de clientes para un mejor análisis, control de calidad y soporte a agentes.
  • Producción de medios y contenidos: Genera subtítulos, leyendas y contenido de audio buscable para videos, podcasts y transmisiones.
  • Asistentes de voz y dispositivos habilitados por voz: Potencia agentes de voz con reconocimiento de voz de baja latencia y alta precisión para una interacción fluida.
  • Documentación legal y médica: Transcribe entrevistas, deposiciones y consultas médicas con alta precisión y cumplimiento de privacidad.

Preguntas frecuentes

Q1: ¿Qué idiomas soporta Voxtral? A1: Voxtral soporta 13 idiomas, incluyendo inglés, chino, hindi, español, árabe, francés, portugués, ruso, alemán, japonés, coreano, italiano y holandés.

Q2: ¿El modelo Realtime de Voxtral es de código abierto? A2: Sí, los pesos del modelo Realtime están disponibles bajo la licencia Apache 2.0 en Hugging Face Hub, permitiendo su despliegue en dispositivos edge.

Q3: ¿Cuánto cuesta Voxtral? A3: Los detalles de precios varían según el uso, pero Voxtral Mini Transcribe V2 ofrece una solución rentable por aproximadamente $0.003 por minuto de audio.

Q4: ¿Puede Voxtral manejar grabaciones largas? A4: Sí, puede procesar grabaciones de hasta 3 horas en una sola solicitud.

Q5: ¿Cuáles son los requisitos del sistema para desplegar los modelos de Voxtral? A5: Los modelos son eficientes, con un tamaño de 4B parámetros, adecuados para su despliegue en dispositivos edge y entornos en la nube, dependiendo de su infraestructura.

Voxtral | UStack