UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 est un modèle omni-modal 9B pour une interaction live en duplex complet : vision, parole et texte en temps réel, avec sorties simultanées.

MiniCPM-o 4_5

Qu'est-ce que MiniCPM-o 4_5 ?

MiniCPM-o 4_5 est un modèle open source pour une interaction live omni-modale en bout en bout combinant vision, parole et texte. Il est conçu pour fonctionner avec des flux vidéo et audio en temps réel afin que le modèle perçoive ce qui se passe et réponde avec des sorties texte et parole simultanées.

Le modèle est construit de manière end-to-end en utilisant des composants incluant SigLip2, Whisper-medium, CosyVoice2 et Qwen3-8B, avec une taille totale annoncée de 9B paramètres. Son objectif principal est d'activer un streaming multimodal en duplex complet — traitement d'entrées continues tout en générant des sorties sans blocage mutuel.

Fonctionnalités clés

  • Streaming live multimodal en duplex complet (texte + parole) : Traite simultanément des flux vidéo et audio continus tout en générant des sorties texte et parole concurrentes, permettant un cycle d'interaction fluide en temps réel « voir, écouter et parler ».
  • Interaction proactive à ~1Hz de fréquence de décision : Surveille en continu la vidéo/audio d'entrée et décide à une fréquence de 1Hz s'il faut parler, soutenant des comportements proactifs comme lancer des rappels ou commentaires basés sur la compréhension de la scène en cours.
  • Modes instruct et thinking dans un seul modèle : Prend en charge les modes « instruct » et « thinking » dans la même configuration de modèle pour couvrir différents compromis efficacité/performance selon les scénarios.
  • Conversation vocale bilingue en temps réel avec voix configurables : Prend en charge la conversation vocale bilingue en temps réel (anglais/chinois) et inclut des voix configurables pour la sortie parlée.
  • Clonage vocal et role play via audio de référence : Permet le clonage vocal et le role play à l'aide d'un simple clip audio de référence lors de l'inférence, la page indiquant que les performances de clonage surpassent des outils comme CosyVoice2.
  • Résolution élevée et débit vidéo pour entrées multimodales : Peut traiter des images haute résolution (jusqu'à 1,8 million de pixels) et des vidéos haute FPS (jusqu'à 10fps) dans n'importe quel ratio d'aspect de manière efficace.
  • OCR/analyse de documents pour documents anglais : Fournit des performances d'analyse end-to-end de documents anglais sur OmniDocBench, la page notant qu'il surpasse les modèles propriétaires cités et les outils OCR spécialisés comme DeepSeek-OCR 2.
  • Capacité multilingue (30+ langues) : Inclut un support multilingue annoncé pour plus de 30 langues.
  • Options d'inférence configurables pour usage local : Prend en charge l'inférence PyTorch sur GPU NVIDIA, adaptation end-side via llama.cpp et Ollama (inférence CPU), modèles quantifiés int4/GGUF en plusieurs tailles, vLLM et SGLang pour inférence haute performance/efficace en mémoire, et FlagOS pour un plugin backend multi-puces unifié.

Comment utiliser MiniCPM-o 4_5

  1. Choisir un chemin d'inférence selon votre matériel : PyTorch sur GPU NVIDIA pour une accélération simple, ou une option end-side comme llama.cpp/Ollama pour inférence CPU.
  2. Démarrer avec les démos fournies : la page indique qu'il existe des démos web open source offrant l'expérience de streaming live multimodal en duplex complet sur appareils locaux (ex. GPU/PC comme un MacBook).
  3. Lancer l'inférence avec l'un des backends supportés (vLLM, SGLang, GGUF/int4 quantifiés, ou plugin FlagOS) selon que vous priorisez le débit, l'efficacité mémoire ou un déploiement compact.

Cas d'usage

  • Tutorat ou assistance live en duplex complet sur téléphone/station de travail : Utilise des entrées audio/vidéo continues pour des réponses conversationnelles en temps réel incluant texte et sortie parlée.
  • Commentaire live en réunion ou style studio : Surveille les scènes en cours et déclenche des commentaires ou rappels proactifs sans attendre un tour réactif pur.
  • Support client bilingue avec personnalisation vocale : Active la conversation vocale anglais/chinois en temps réel et configure les voix parlées ; utilise optionnellement clonage vocal/role play si approprié.
  • Capture et analyse de documents en temps réel : Fournit des images haute résolution pour une analyse end-to-end de documents anglais, visant des sorties structurées plutôt que workflows OCR-only.
  • Compréhension de scènes multilingue : Exploite la capacité >30 langues annoncée pour gérer instructions ou réponses multilingues avec entrées visuelles.

FAQ

  • Quelles modalités prend en charge MiniCPM-o 4_5 ? La page décrit le support de la vision (images/vidéo), de la parole (conversation bilingue en temps réel) et du texte, avec streaming live en duplex complet où les sorties peuvent être générées concurremment avec les flux entrants.

  • Peut-il générer de la parole tout en recevant encore du nouvel audio/vidéo ? Oui. Le mécanisme de streaming en duplex complet du modèle est décrit comme traitant les flux d'entrée simultanément tout en générant des sorties texte et parole concurremment, sans blocage mutuel.

  • MiniCPM-o 4_5 inclut-il une personnalisation vocale ? Oui. Il prend en charge des voix configurables pour l'anglais/chinois, ainsi que le clonage vocal et le jeu de rôle à l'aide d'un extrait audio de référence lors de l'inférence.

  • Quelles options matérielles sont prises en charge pour exécuter le modèle localement ? La page liste l'inférence PyTorch sur GPU NVIDIA, l'inférence CPU via llama.cpp et Ollama, des variantes quantifiées int4 GGUF, et des frameworks de serving/inférence incluant vLLM et SGLang, plus FlagOS pour backends multi-puces.

  • Quels types d'entrées visuelles peut-il traiter ? Il prend en charge des images haute résolution jusqu'à 1,8 million de pixels et des vidéos haute FPS jusqu'à 10 fps dans n'importe quel ratio d'aspect, comme indiqué sur la page.

Alternatives

  • Autres systèmes LLM multimodaux streaming/temps réel : Au lieu d'un modèle omni-modal en duplex complet, certaines solutions utilisent des pipelines séparés (ex. : vision-vers-texte + ASR + TTS). Elles diffèrent par le workflow : elles ne fournissent pas le même comportement de streaming entrée/sortie end-to-end et concurrent décrit ici.
  • Assistants vocaux axés sur la parole sans streaming visuel unifié : Les assistants vocaux priorisant la parole peuvent gérer des conversations en temps réel, mais ne combinent pas forcément une entrée visuelle continue avec des sorties parole/texte concurremment de manière end-to-end.
  • Chaînes d'outils OCR/analyse de documents locaux : Pour les tâches d'analyse de documents, des outils OCR/extraction dédiés peuvent être plus spécialisés ; cependant, ils se concentrent généralement sur l'extraction de texte plutôt que sur l'interaction live omni-modale plus large (vision + parole + comportement proactif).
MiniCPM-o 4_5 | UStack