UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 es un modelo omni-modal de 9B para interacción en vivo full-duplex con visión, voz y texto, en tiempo real con salidas simultáneas.

MiniCPM-o 4_5

¿Qué es MiniCPM-o 4_5?

MiniCPM-o 4_5 es un modelo abierto para interacción en vivo omni-modal de extremo a extremo que combina visión, voz y texto. Está diseñado para trabajar con flujos de video y audio en tiempo real, permitiendo que el modelo perciba lo que ocurre y responda con salidas simultáneas de texto y voz.

El modelo se construye de extremo a extremo utilizando componentes como SigLip2, Whisper-medium, CosyVoice2 y Qwen3-8B, con un tamaño total declarado de 9B parámetros. Su propósito principal es habilitar streaming multimodal full-duplex: procesar entradas continuas mientras genera salidas sin bloquearse mutuamente.

Características principales

  • Streaming en vivo multimodal full-duplex (texto + voz): Procesa flujos continuos de video y audio simultáneamente mientras genera salidas concurrentes de texto y voz, permitiendo “ver, escuchar y hablar” en un bucle de interacción fluida en tiempo real.
  • Interacción proactiva a ~1Hz de frecuencia de decisión: Monitorea continuamente el video/audio de entrada y decide a 1Hz si hablar, soportando comportamientos proactivos como recordatorios o comentarios basados en la comprensión continua de la escena.
  • Modos instruct y thinking en un solo modelo: Soporta modos “instruct” y “thinking” en la misma configuración de modelo para cubrir diferentes compromisos de eficiencia/rendimiento según el escenario.
  • Conversación en voz bilingüe en tiempo real con voces configurables: Soporta conversación en voz bilingüe (inglés/chino) en tiempo real e incluye voces configurables para la salida de voz.
  • Clonación de voz y role play vía audio de referencia: Permite clonación de voz y role play usando un simple clip de audio de referencia durante la inferencia; la página indica que su rendimiento de clonación supera herramientas como CosyVoice2.
  • Alta resolución y throughput de video para entradas multimodales: Puede procesar imágenes de alta resolución (hasta 1,8 millones de píxeles) y videos de alto FPS (hasta 10fps) en cualquier relación de aspecto de forma eficiente.
  • OCR/análisis de documentos para documentos en inglés: Ofrece rendimiento de análisis de extremo a extremo para documentos en inglés en OmniDocBench, y la página señala que supera modelos propietarios citados y herramientas OCR especializadas como DeepSeek-OCR 2.
  • Capacidad multilingüe (30+ idiomas): Incluye soporte multilingüe declarado para más de 30 idiomas.
  • Opciones de inferencia configurables para uso local: Soporta inferencia PyTorch en GPUs NVIDIA, adaptación end-side vía llama.cpp y Ollama (inferencia CPU), modelos cuantizados int4/GGUF en múltiples tamaños, vLLM y SGLang para inferencia de alto throughput/eficiente en memoria, y FlagOS para un plugin backend unificado multi-chip.

Cómo usar MiniCPM-o 4_5

  1. Elige un camino de inferencia según tu hardware: PyTorch en GPU NVIDIA para aceleración directa, o una opción end-side como llama.cpp/Ollama para inferencia CPU.
  2. Comienza con las demos proporcionadas: la página indica que hay demos web de código abierto que ofrecen la experiencia de streaming en vivo multimodal full-duplex en dispositivos locales (p. ej., GPUs/PCs como un MacBook).
  3. Ejecuta inferencia usando uno de los backends soportados (vLLM, SGLang, GGUF/int4 cuantizados o plugin FlagOS) según priorices throughput, eficiencia de memoria o despliegue compacto.

Casos de uso

  • Tutoría o asistencia en vivo full-duplex en teléfono/estación de trabajo: Usa entrada continua de audio/video para respuestas conversacionales en tiempo real que incluyan texto y salida hablada.
  • Comentario en vivo para reuniones o estilo estudio: Monitorea escenas en curso y activa comentarios o recordatorios proactivos sin esperar turnos puramente reactivos.
  • Soporte al cliente bilingüe con personalización de voz: Habilita conversación en voz inglés/chino en tiempo real y configura voces de salida; opcionalmente usa clonación de voz/role play cuando sea apropiado.
  • Captura y análisis de documentos en tiempo real: Alimenta imágenes de alta resolución para análisis de extremo a extremo de documentos en inglés, apuntando a salidas estructuradas en lugar de flujos solo OCR.
  • Comprensión de escenas multilingüe: Usa la capacidad declarada del modelo de >30 idiomas para manejar instrucciones o respuestas multilingües junto con entradas visuales.

Preguntas frecuentes

  • ¿Qué modalidades soporta MiniCPM-o 4_5? La página describe soporte para visión (imágenes/video), voz (conversación bilingüe en tiempo real) y texto, con streaming en vivo full-duplex donde las salidas se generan concurrentemente con los flujos entrantes.

  • ¿Puede generar voz mientras sigue recibiendo nuevo audio/video? Sí. El mecanismo de streaming full-duplex del modelo se describe como procesamiento simultáneo de flujos de entrada mientras genera salidas concurrentes de texto y voz sin bloqueo mutuo.

  • ¿Incluye MiniCPM-o 4_5 personalización de voz? Sí. Soporta voces configurables para inglés/chino e incluye clonación de voz y role play usando un clip de audio de referencia durante la inferencia.

  • ¿Qué opciones de hardware se soportan para ejecutar el modelo localmente? La página lista inferencia PyTorch en GPUs NVIDIA, inferencia CPU vía llama.cpp y Ollama, variantes cuantizadas int4 GGUF, y frameworks de serving/inferencia como vLLM y SGLang, más FlagOS para backends multi-chip.

  • ¿Qué tipos de entradas visuales puede manejar? Soporta imágenes de alta resolución hasta 1,8 millones de píxeles y videos de alta FPS hasta 10fps en cualquier relación de aspecto, como se indica en la página.

Alternativas

  • Otros sistemas LLM multimodales de streaming/tiempo real: En lugar de un modelo omni-modal full-duplex, algunas soluciones usan pipelines separados (p. ej., visión-a-texto + ASR + TTS). Difieren en el flujo de trabajo: pueden no ofrecer el mismo comportamiento de streaming de entrada/salida concurrente de extremo a extremo descrito aquí.
  • Asistentes enfocados en voz sin streaming visual unificado: Los asistentes de voz prioritarios pueden manejar conversaciones en tiempo real, pero pueden no combinar entrada visual continua con salidas concurrentes de voz/texto de la misma manera de extremo a extremo.
  • Cadenas de herramientas locales de OCR/análisis de documentos: Para tareas de análisis de documentos, herramientas dedicadas de OCR/extracción de documentos pueden ser más especializadas; sin embargo, típicamente se centran en extracción de texto en lugar de la interacción en vivo omni-modal más amplia (visión + voz + comportamiento proactivo).
MiniCPM-o 4_5 | UStack