UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 è un modello omni-modale da 9B per interazione live full-duplex: elabora video/audio in tempo reale e genera testo e speech simultanei.

MiniCPM-o 4_5

Cos'è MiniCPM-o 4_5?

MiniCPM-o 4_5 è un modello open per interazione live omni-modale end-to-end che combina visione, speech e testo. È progettato per funzionare con flussi video e audio in tempo reale, permettendo al modello di percepire ciò che accade e rispondere con output testo e speech simultanei.

Il modello è costruito in modo end-to-end utilizzando componenti come SigLip2, Whisper-medium, CosyVoice2 e Qwen3-8B, con una dimensione totale dichiarata di 9B parametri. Il suo scopo principale è abilitare lo streaming multimodale full-duplex: elaborazione di input continui mentre genera output senza blocchi reciproci.

Caratteristiche Principali

  • Streaming live multimodale full-duplex (testo + speech): Elabora simultaneamente flussi video e audio continui mentre genera output testo e speech concorrenti, abilitando un ciclo di interazione fluido in tempo reale di “vedere, ascoltare e parlare”.
  • Interazione proattiva a ~1Hz di frequenza decisionale: Monitora continuamente il video/audio in ingresso e decide a una frequenza di 1Hz se parlare, supportando comportamenti proattivi come avvisi o commenti basati sulla comprensione della scena in corso.
  • Modalità instruct e thinking con un singolo modello: Supporta sia la modalità “instruct” che “thinking” nella stessa configurazione del modello per coprire diversi compromessi efficienza/prestazioni tra scenari.
  • Conversazione speech real-time bilingue con voci configurabili: Supporta conversazione speech real-time bilingue (inglese/cinese) e include voci configurabili per l’output speech.
  • Clonazione vocale e role play tramite audio di riferimento: Abilita clonazione vocale e role play usando un semplice clip audio di riferimento durante l’inferenza, con performance di clonazione dichiarate superiori a tool come CosyVoice2.
  • Risoluzione elevata e throughput video per input multimodali: Può elaborare immagini ad alta risoluzione (fino a 1,8 milioni di pixel) e video ad alto FPS (fino a 10fps) in qualsiasi aspect ratio in modo efficiente.
  • OCR/analisi documenti per documenti in inglese: Fornisce performance end-to-end di analisi documenti inglesi su OmniDocBench, superando modelli proprietari citati e tool OCR specializzati come DeepSeek-OCR 2.
  • Capacità multilingue (oltre 30 lingue): Include supporto multilingue per più di 30 lingue.
  • Opzioni di inferenza configurabili per uso locale: Supporta inferenza PyTorch su GPU NVIDIA, adattamento end-side via llama.cpp e Ollama (inferenza CPU), modelli quantizzati int4/GGUF in varie dimensioni, vLLM e SGLang per inferenza ad alto throughput/efficienza memoria, e FlagOS per plugin backend multi-chip unificato.

Come Usare MiniCPM-o 4_5

  1. Scegli un percorso di inferenza in base al tuo hardware: PyTorch su GPU NVIDIA per accelerazione diretta, o opzioni end-side come llama.cpp/Ollama per inferenza CPU.
  2. Parti dai demo forniti: la pagina indica demo web open-source che offrono l’esperienza di streaming live multimodale full-duplex su dispositivi locali (es. GPU/PC come un MacBook).
  3. Esegui l’inferenza usando uno dei backend supportati (vLLM, SGLang, GGUF/int4 quantizzati o plugin FlagOS) a seconda se priorizzi throughput, efficienza memoria o deployment compatto.

Casi d'Uso

  • Tutoraggio o assistenza live full-duplex su telefono/stazione di lavoro: Usa input audio/video continui per risposte conversazionali in tempo reale che includono sia testo che output parlato.
  • Commento live per riunioni o stile studio: Monitora scene in corso e attiva commenti o avvisi proattivi senza aspettare turni reattivi puri.
  • Supporto clienti bilingue con personalizzazione vocale: Abilita conversazione speech real-time inglese/cinese e configura voci speech; opzionalmente usa clonazione vocale/role play quando appropriato.
  • Cattura e analisi documenti in tempo reale: Fornisci immagini ad alta risoluzione per analisi end-to-end di documenti inglesi, puntando a output strutturati dai documenti anziché workflow OCR-only.
  • Comprensione scena multilingue: Usa la capacità dichiarata del modello per >30 lingue per gestire istruzioni o risposte multilingue insieme a input visivi.

FAQ

  • Quali modalità supporta MiniCPM-o 4_5? La pagina descrive il supporto per visione (immagini/video), speech (conversazione bilingue in tempo reale) e testo, con streaming live full-duplex in cui gli output possono essere generati contemporaneamente agli stream in ingresso.

  • Può generare speech mentre riceve ancora nuovi audio/video? Sì. Il meccanismo di streaming full-duplex del modello è descritto come elaborazione simultanea degli stream in ingresso mentre genera output testo e speech concorrenti senza blocchi reciproci.

  • MiniCPM-o 4_5 include personalizzazione vocale? Sì. Supporta voci configurabili per inglese/cinese e include voice cloning e role play usando un clip audio di riferimento durante l'inferenza.

  • Quali opzioni hardware sono supportate per eseguire il modello localmente? La pagina elenca inferenza PyTorch su GPU NVIDIA, inferenza CPU via llama.cpp e Ollama, varianti quantizzate int4 GGUF, e framework di serving/inferenza inclusi vLLM e SGLang, più FlagOS per backend multi-chip.

  • Che tipi di input visivi può gestire? Supporta immagini ad alta risoluzione fino a 1,8 milioni di pixel e video ad alto FPS fino a 10fps in qualsiasi aspect ratio, come indicato sulla pagina.

Alternative

  • Altri sistemi LLM multimodali streaming/tempo reale: Invece di un modello omni-modale full-duplex, alcune soluzioni usano pipeline separate (es. vision-to-text + ASR + TTS). Differiscono per workflow: potrebbero non fornire lo stesso comportamento end-to-end di streaming input/output concorrente descritto qui.
  • Assistenti vocali focalizzati sulla speech senza streaming visivo unificato: Gli assistenti vocali speech-first possono gestire conversazioni in tempo reale, ma potrebbero non combinare input visivo continuo con output speech/testo concorrenti nello stesso modo end-to-end.
  • Toolchain locali OCR/analisi documenti: Per compiti di parsing documenti, tool OCR/estrazione documenti dedicati potrebbero essere più specializzati; tuttavia, tipicamente si concentrano sull'estrazione testo piuttosto che sull'interazione live omni-modale più ampia (visione + speech + comportamento proattivo).