MiniCPM-o 4_5
MiniCPM-o 4_5は、ビジョン・音声・テキストを統合した9Bのオムニモーダルモデル。動画/音声を同時処理し、字幕と音声をリアルタイム出力。
MiniCPM-o 4_5とは?
MiniCPM-o 4_5は、ビジョン・音声・テキストを統合したエンドツーエンドのオムニモーダルライブインタラクションモデルです。リアルタイムの動画・音声ストリームに対応し、状況を認識してテキストと音声を同時に出力します。
このモデルは、SigLip2、Whisper-medium、CosyVoice2、Qwen3-8Bなどのコンポーネントをエンドツーエンドで構築しており、総パラメータ数は9Bです。主な目的はフルデュプレックスのマルチモーダルストリーミングで、連続入力の処理と出力生成を相互にブロックせずに実現します。
主な特徴
- フルデュプレックスのマルチモーダルライブストリーミング(テキスト + 音声): 連続する動画・音声入力ストリームを同時に処理し、テキストと音声を並行出力。「見る・聞く・話す」を流れるようなリアルタイムインタラクションループで実現。
- ~1Hzの決定頻度でのプロアクティブインタラクション: 入力動画/音声を継続監視し、1Hzの頻度で発話を決定。進行中のシーン理解に基づくリマインダーやコメントなどのプロアクティブ動作をサポート。
- 単一モデルでのinstruct/thinkingモード: 同一モデル構成内で「instruct」モードと「thinking」モードをサポートし、シナリオごとの効率/性能トレードオフに対応。
- 音声出力のカスタマイズ可能なバイリンガルリアルタイム会話: 英語/中国語のリアルタイム音声会話をサポートし、音声出力のカスタマイズ音声を備える。
- 参照オーディオによるボイスクローニングとロールプレイ: 推論時に簡単な参照オーディオクリップでボイスクローニングとロールプレイを実現。ページではCosyVoice2などのツールを上回るクローニング性能を記載。
- マルチモーダル入力の高解像度・動画スループット: 任意のアスペクト比で高解像度画像(最大180万ピクセル)および高FPS動画(最大10fps)を効率処理。
- 英語ドキュメントのOCR/ドキュメント解析: OmniDocBenchでエンドツーエンドの英語ドキュメント解析性能を提供。ページでは記載のプロプライエタリモデルやDeepSeek-OCR 2などの専用OCRツールを上回ると記載。
- 多言語対応(30言語以上): 30言語以上の多言語サポートを明記。
- ローカル推論のカスタマイズオプション: NVIDIA GPU向けPyTorch推論、llama.cpp/Ollamaによるエンドサイド適応(CPU推論)、int4/GGUF量子化モデル(複数サイズ)、高スループット/メモリ効率のvLLM/SGLang、統一マルチチップバックエンドプラグインのFlagOSをサポート。
MiniCPM-o 4_5の使い方
- ハードウェアに応じた推論経路を選択: NVIDIA GPU向けPyTorchでシンプルな高速化、またはCPU推論のllama.cpp/Ollamaなどのエンドサイドオプション。
- 提供デモから開始: ページではオープンソースのウェブデモがあり、ローカルデバイス(例: GPU/PC/MacBook)でフルデュプレックスのマルチモーダルライブストリーミング体験を提供。
- サポートバックエンドで推論実行: スループット、メモリ効率、コンパクトデプロイの優先度に応じてvLLM、SGLang、量子化GGUF/int4、FlagOSプラグインを使用。
ユースケース
- 電話/ワークステーションでのフルデュプレックスライブ指導/支援: 連続音声/動画入力を活用し、テキストと音声出力を含む会話型リアルタイム応答をサポート。
- ライブ会議/スタジオ風解説: 進行シーンを監視し、純粋反応型のターン取りを待たずにプロアクティブなコメント/リマインダーをトリガー。
- 音声パーソナライズのバイリンガルカスタマーサポート: 英語/中国語リアルタイム音声会話を有効化し音声設定、適宜ボイスクローニング/ロールプレイを使用。
- リアルタイムドキュメントキャプチャ/解析: 高解像度画像を投入しエンドツーエンド英語ドキュメント解析を実施、OCRオンリーではなく構造化出力を目指す。
- 多言語シーン理解: モデル記載の30言語以上対応を活用し、視覚入力と共に多言語指示/応答を処理。
FAQ
-
MiniCPM-o 4_5はどのようなモダリティをサポートしますか? ページでは、ビジョン(画像/動画)、音声(バイリンガルリアルタイム会話)、テキストのサポートが記述されており、フルデュプレックスライブストリーミングで入力ストリームと同時に出力生成が可能。
-
新しい音声/動画入力を受け取りながら音声生成できますか? はい。モデルのフルデュプレックスストリーミング機構により、入力ストリームを同時処理しつつ、テキストと音声出力を相互にブロックせずに同時生成すると記述。
-
MiniCPM-o 4_5に音声カスタマイズ機能はありますか? はい。英語/中国語の音声設定をサポートし、推論時に参照オーディオクリップを使ったボイスクローニングとロールプレイが可能。
-
ローカル実行にサポートされるハードウェアは何ですか? ページでは、NVIDIA GPUでのPyTorch推論、llama.cppおよびOllamaでのCPU推論、量子化int4 GGUFバリアント、vLLMやSGLangなどのサービング/推論フレームワーク、FlagOSによるマルチチップバックエンドが記載。
-
どのような視覚入力を扱えますか? ページによると、最大180万ピクセルの高解像度画像と任意のアスペクト比の最大10fps高フレームレート動画をサポート。
代替案
- 他のマルチモーダルストリーミング/リアルタイムLLMシステム: フルデュプレックスオムニモーダルモデルではなく、別パイプライン(例:vision-to-text + ASR + TTS)を使用するもの。これらはワークフローが異なり、ここで記述されたエンドツーエンド同時入出力ストリーミングを提供しない場合がある。
- 統一ビジョンストリーミングなしの音声特化アシスタント: 音声優先ボイスアシスタントはリアルタイム会話を扱えるが、連続ビジョン入力と同時音声/テキスト出力を同一エンドツーエンドで組み合わせない場合がある。
- ローカルOCR/ドキュメント解析ツールチェーン: ドキュメント解析タスクでは専用OCR/抽出ツールがより特化;ただし、テキスト抽出に焦点を当て、オムニモーダルライブインタラクション(ビジョン + 音声 + プロアクティブ行動)の広範さはない。
代替品
Lemon
Lemonは音声コマンドをタスクに変換するAIエージェント。メッセージ管理、リサーチ、仕事の委任をアプリ切り替えなしで実行できます。
PXZ AI
画像、動画、音声、ライティング、チャットのツールを統合したオールインワンAIプラットフォームで、創造性とコラボレーションを高めます。
Gemma AI
Gemma AIは、重要なタスク、予定、締め切りを絶対に忘れないように、パーソナライズされたインテリジェントな音声リマインダーで直接電話をかけてくるスマートアプリケーションです。
Tavus
TavusはAIがリアルタイムの対面コミュニケーションで見て・聞いて・応答。動画エージェントやデジタルツイン、AIコンパニオンをAPIで提供。
AakarDev AI
AakarDev AIは、シームレスなベクターデータベース統合を通じてAIアプリケーションの開発を簡素化し、迅速な展開とスケーラビリティを実現する強力なプラットフォームです。
Sanota
Sanotaは音声を明快で美しい文章に変換。思い出やアイデアを気軽に書き起こして、無料で始められます。