UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5は、ビジョン・音声・テキストを統合した9Bのオムニモーダルモデル。動画/音声を同時処理し、字幕と音声をリアルタイム出力。

MiniCPM-o 4_5

MiniCPM-o 4_5とは?

MiniCPM-o 4_5は、ビジョン・音声・テキストを統合したエンドツーエンドのオムニモーダルライブインタラクションモデルです。リアルタイムの動画・音声ストリームに対応し、状況を認識してテキストと音声を同時に出力します。

このモデルは、SigLip2、Whisper-medium、CosyVoice2、Qwen3-8Bなどのコンポーネントをエンドツーエンドで構築しており、総パラメータ数は9Bです。主な目的はフルデュプレックスのマルチモーダルストリーミングで、連続入力の処理と出力生成を相互にブロックせずに実現します。

主な特徴

  • フルデュプレックスのマルチモーダルライブストリーミング(テキスト + 音声): 連続する動画・音声入力ストリームを同時に処理し、テキストと音声を並行出力。「見る・聞く・話す」を流れるようなリアルタイムインタラクションループで実現。
  • ~1Hzの決定頻度でのプロアクティブインタラクション: 入力動画/音声を継続監視し、1Hzの頻度で発話を決定。進行中のシーン理解に基づくリマインダーやコメントなどのプロアクティブ動作をサポート。
  • 単一モデルでのinstruct/thinkingモード: 同一モデル構成内で「instruct」モードと「thinking」モードをサポートし、シナリオごとの効率/性能トレードオフに対応。
  • 音声出力のカスタマイズ可能なバイリンガルリアルタイム会話: 英語/中国語のリアルタイム音声会話をサポートし、音声出力のカスタマイズ音声を備える。
  • 参照オーディオによるボイスクローニングとロールプレイ: 推論時に簡単な参照オーディオクリップでボイスクローニングとロールプレイを実現。ページではCosyVoice2などのツールを上回るクローニング性能を記載。
  • マルチモーダル入力の高解像度・動画スループット: 任意のアスペクト比で高解像度画像(最大180万ピクセル)および高FPS動画(最大10fps)を効率処理。
  • 英語ドキュメントのOCR/ドキュメント解析: OmniDocBenchでエンドツーエンドの英語ドキュメント解析性能を提供。ページでは記載のプロプライエタリモデルやDeepSeek-OCR 2などの専用OCRツールを上回ると記載。
  • 多言語対応(30言語以上): 30言語以上の多言語サポートを明記。
  • ローカル推論のカスタマイズオプション: NVIDIA GPU向けPyTorch推論、llama.cpp/Ollamaによるエンドサイド適応(CPU推論)、int4/GGUF量子化モデル(複数サイズ)、高スループット/メモリ効率のvLLM/SGLang、統一マルチチップバックエンドプラグインのFlagOSをサポート。

MiniCPM-o 4_5の使い方

  1. ハードウェアに応じた推論経路を選択: NVIDIA GPU向けPyTorchでシンプルな高速化、またはCPU推論のllama.cpp/Ollamaなどのエンドサイドオプション。
  2. 提供デモから開始: ページではオープンソースのウェブデモがあり、ローカルデバイス(例: GPU/PC/MacBook)でフルデュプレックスのマルチモーダルライブストリーミング体験を提供。
  3. サポートバックエンドで推論実行: スループット、メモリ効率、コンパクトデプロイの優先度に応じてvLLM、SGLang、量子化GGUF/int4、FlagOSプラグインを使用。

ユースケース

  • 電話/ワークステーションでのフルデュプレックスライブ指導/支援: 連続音声/動画入力を活用し、テキストと音声出力を含む会話型リアルタイム応答をサポート。
  • ライブ会議/スタジオ風解説: 進行シーンを監視し、純粋反応型のターン取りを待たずにプロアクティブなコメント/リマインダーをトリガー。
  • 音声パーソナライズのバイリンガルカスタマーサポート: 英語/中国語リアルタイム音声会話を有効化し音声設定、適宜ボイスクローニング/ロールプレイを使用。
  • リアルタイムドキュメントキャプチャ/解析: 高解像度画像を投入しエンドツーエンド英語ドキュメント解析を実施、OCRオンリーではなく構造化出力を目指す。
  • 多言語シーン理解: モデル記載の30言語以上対応を活用し、視覚入力と共に多言語指示/応答を処理。

FAQ

  • MiniCPM-o 4_5はどのようなモダリティをサポートしますか? ページでは、ビジョン(画像/動画)、音声(バイリンガルリアルタイム会話)、テキストのサポートが記述されており、フルデュプレックスライブストリーミングで入力ストリームと同時に出力生成が可能。

  • 新しい音声/動画入力を受け取りながら音声生成できますか? はい。モデルのフルデュプレックスストリーミング機構により、入力ストリームを同時処理しつつ、テキストと音声出力を相互にブロックせずに同時生成すると記述。

  • MiniCPM-o 4_5に音声カスタマイズ機能はありますか? はい。英語/中国語の音声設定をサポートし、推論時に参照オーディオクリップを使ったボイスクローニングとロールプレイが可能。

  • ローカル実行にサポートされるハードウェアは何ですか? ページでは、NVIDIA GPUでのPyTorch推論、llama.cppおよびOllamaでのCPU推論、量子化int4 GGUFバリアント、vLLMやSGLangなどのサービング/推論フレームワーク、FlagOSによるマルチチップバックエンドが記載。

  • どのような視覚入力を扱えますか? ページによると、最大180万ピクセルの高解像度画像と任意のアスペクト比の最大10fps高フレームレート動画をサポート。

代替案

  • 他のマルチモーダルストリーミング/リアルタイムLLMシステム: フルデュプレックスオムニモーダルモデルではなく、別パイプライン(例:vision-to-text + ASR + TTS)を使用するもの。これらはワークフローが異なり、ここで記述されたエンドツーエンド同時入出力ストリーミングを提供しない場合がある。
  • 統一ビジョンストリーミングなしの音声特化アシスタント: 音声優先ボイスアシスタントはリアルタイム会話を扱えるが、連続ビジョン入力と同時音声/テキスト出力を同一エンドツーエンドで組み合わせない場合がある。
  • ローカルOCR/ドキュメント解析ツールチェーン: ドキュメント解析タスクでは専用OCR/抽出ツールがより特化;ただし、テキスト抽出に焦点を当て、オムニモーダルライブインタラクション(ビジョン + 音声 + プロアクティブ行動)の広範さはない。
MiniCPM-o 4_5 | UStack