UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 ist ein 9B Omni-Modal-Modell für Full-Duplex-Live-Interaktion mit Vision, Sprache und Text: Video/Audio parallel verarbeiten, Text & Sprache gleichzeitig ausgeben.

MiniCPM-o 4_5

Was ist MiniCPM-o 4_5?

MiniCPM-o 4_5 ist ein Open-Source-Modell für End-to-End Omni-Modal-Live-Interaktion, das Vision, Sprache und Text kombiniert. Es ist für Echtzeit-Video- und Audio-Streams ausgelegt, damit das Modell Ereignisse wahrnimmt und gleichzeitig Text- und Sprachausgaben erzeugt.

Das Modell ist End-to-End aufgebaut mit Komponenten wie SigLip2, Whisper-medium, CosyVoice2 und Qwen3-8B und hat eine Gesamtgröße von 9B Parametern. Sein Kernzweck ist Full-Duplex-Multimodal-Streaming – kontinuierliche Eingaben verarbeiten, während Ausgaben ohne gegenseitige Blockade generiert werden.

Wichtige Funktionen

  • Full-Duplex-Multimodal-Live-Streaming (Text + Sprache): Verarbeitet kontinuierliche Video- und Audio-Eingangsströme gleichzeitig und erzeugt parallele Text- und Sprachausgaben für einen fließenden „sehen, hören, sprechen“-Interaktionsloop in Echtzeit.
  • Proaktive Interaktion bei ~1 Hz Entscheidungsfrequenz: Überwacht kontinuierlich Video/Audio und entscheidet 1 Hz, ob gesprochen werden soll – unterstützt proaktive Verhaltensweisen wie Erinnerungen oder Kommentare basierend auf laufendem Szenenverständnis.
  • Instruct- und Thinking-Modi im Einzelsmodell: Unterstützt „instruct“- und „thinking“-Modi in derselben Modellkonfiguration für unterschiedliche Effizienz-/Leistungsabwägungen je Szenario.
  • Bilinguale Echtzeit-Sprachgespräche mit konfigurierbaren Stimmen: Ermöglicht Echtzeit-Gespräche auf Englisch/Chinesisch mit anpassbaren Stimmen für die Sprachausgabe.
  • Voice Cloning und Role Play per Referenzaudio: Ermöglicht Voice Cloning und Role Play mit einem einfachen Referenzaudio-Clip während der Inferenz; die Seite gibt an, dass die Cloning-Leistung Tools wie CosyVoice2 übertrifft.
  • Hohe Auflösung und Video-Durchsatz für multimodale Eingaben: Verarbeitet hochauflösende Bilder (bis 1,8 Mio. Pixel) und High-FPS-Videos (bis 10 fps) in jedem Seitenverhältnis effizient.
  • OCR/Dokumenten-Parsing für englische Dokumente: Bietet End-to-End-Parsing-Leistung für Englisch auf OmniDocBench; die Seite hebt Überlegenheit gegenüber genannten proprietären Modellen und spezialisierten OCR-Tools wie DeepSeek-OCR 2 hervor.
  • Mehrsprachigkeit (30+ Sprachen): Umfasst Unterstützung für mehr als 30 Sprachen.
  • Konfigurierbare Inferenzoptionen für lokalen Einsatz: Unterstützt PyTorch-Inferenz auf NVIDIA GPUs, Endgeräte-Adaptation via llama.cpp und Ollama (CPU-Inferenz), quantisierte int4/GGUF-Modelle in verschiedenen Größen, vLLM und SGLang für hochdurchsatzige/speichersparende Inferenz sowie FlagOS als einheitliches Multi-Chip-Backend-Plugin.

So nutzen Sie MiniCPM-o 4_5

  1. Wählen Sie einen Inferenzpfad passend zu Ihrer Hardware: PyTorch auf NVIDIA GPU für einfache Beschleunigung oder Endgeräte-Optionen wie llama.cpp/Ollama für CPU-Inferenz.
  2. Starten Sie mit den Demos: Die Seite nennt Open-Source-Web-Demos, die Full-Duplex-Multimodal-Live-Streaming auf lokalen Geräten (z. B. GPUs/PCs wie MacBook) bieten.
  3. Führen Sie Inferenz aus mit einem unterstützten Backend (vLLM, SGLang, quantisierte GGUF/int4 oder FlagOS-Plugin), je nach Priorität für Durchsatz, Speichereffizienz oder kompakte Bereitstellung.

Anwendungsfälle

  • Full-Duplex-Live-Nachhilfe oder Assistenz auf Phone/Workstation: Nutzt kontinuierliche Audio/Video-Eingaben für konversationelle Echtzeit-Antworten mit Text- und Sprachausgabe.
  • Live-Meeting- oder Studio-Kommentar: Überwacht Szenen und löst proaktive Kommentare/Erinnerungen aus, ohne rein reaktives Turn-Taking.
  • Bilinguale Kundensupport mit Stimmengestaltung: Ermöglicht Echtzeit-Englisch/Chinesisch-Gespräche mit konfigurierbaren Stimmen; optional Voice Cloning/Role Play.
  • Echtzeit-Dokumentenerfassung und -Parsing: Liefert hochauflösende Bilder für End-to-End-Englisch-Dokumentenparsing mit strukturierten Ausgaben statt reiner OCR.
  • Mehrsprachiges Szenenverständnis: Nutzt die >30-Sprachen-Fähigkeit für mehrsprachige Anweisungen/Antworten neben visuellen Eingaben.

FAQ

  • Welche Modalitäten unterstützt MiniCPM-o 4_5? Die Seite beschreibt Unterstützung für Vision (Bilder/Video), Sprache (bilinguale Echtzeit-Konversation) und Text mit Full-Duplex-Live-Streaming, bei dem Ausgaben gleichzeitig mit eingehenden Streams generiert werden können.

  • Kann es Sprache generieren, während es noch neue Audio/Video-Eingaben empfängt? Ja. Der Full-Duplex-Streaming-Mechanismus des Modells verarbeitet Eingabestroms gleichzeitig, während es parallele Text- und Sprachausgaben ohne gegenseitige Blockierung erzeugt.

  • Enthält MiniCPM-o 4_5 Voice Customization? Ja. Es unterstützt konfigurierbare Stimmen für Englisch/Chinesisch sowie Voice Cloning und Role Play mit einem Referenzaudio-Clip während der Inferenz.

  • Welche Hardware-Optionen werden für lokales Ausführen des Modells unterstützt? Die Seite listet PyTorch-Inferenz auf NVIDIA GPUs, CPU-Inferenz via llama.cpp und Ollama, quantisierte int4 GGUF-Varianten sowie Serving/Inferenz-Frameworks wie vLLM und SGLang auf, plus FlagOS für Multi-Chip-Backends.

  • Welche visuellen Eingaben kann es verarbeiten? Es unterstützt hochauflösende Bilder bis zu 1,8 Millionen Pixel und High-FPS-Videos bis 10 fps in jedem Seitenverhältnis, wie auf der Seite angegeben.

Alternativen

  • Andere multimodale Streaming/Echtzeit-LLM-Systeme: Statt eines Full-Duplex-Omni-Modal-Modells nutzen einige Lösungen separate Pipelines (z. B. Vision-to-Text + ASR + TTS). Diese unterscheiden sich im Workflow: Sie bieten möglicherweise nicht dasselbe end-to-end-parallele Input/Output-Streaming-Verhalten wie hier beschrieben.
  • Sprache-fokussierte Assistenten ohne einheitliches Vision-Streaming: Sprache-erste Voice-Assistenten können Echtzeit-Konversationen handhaben, kombinieren aber möglicherweise nicht kontinuierliche Vision-Eingaben mit parallelen Sprach-/Textausgaben auf dieselbe end-to-end-Art.
  • Lokale OCR/Dokument-Parsing-Toolchains: Für Dokument-Parsing-Aufgaben sind dedizierte OCR-/Dokument-Extraktions-Tools spezialisierter; sie konzentrieren sich jedoch typischerweise auf Text-Extraktion statt der umfassenderen Omni-Modal-Live-Interaktion (Vision + Sprache + proaktives Verhalten).
MiniCPM-o 4_5 | UStack