MiniCPM-o 4.5 icon

MiniCPM-o 4.5

MiniCPM-o 4.5は、Hugging Face上の視覚・音声・テキスト・全二重ライブ配信対応のマルチモーダルAIモデルです。PyTorch、llama.cpp、Ollama、vLLM、SGLang、量子化形式での推論に対応。

MiniCPM-o 4.5

概要

MiniCPM-o 4.5は、openbmbが提供するHugging Face上のマルチモーダルモデルで、スマートフォンやローカルデバイス上での視覚、音声、テキスト、全二重ライブ配信向けに設計されています。モデルページでは、MiniCPM-oシリーズの最新かつ最も高性能なモデルとして説明されており、9Bパラメータと、SigLip2、Whisper-medium、CosyVoice2、Qwen3-8B上に構築されたエンドツーエンドアーキテクチャを備えています。

その機能はリアルタイム対話を中心に据えており、連続する音声および動画ストリームを処理し、テキストと音声を同時に生成し、ライブシーン中のプロアクティブな応答もサポートします。ページではさらに、強力なOCRと文書解析性能、バイリンガル音声対話、設定可能な音声、参照音声からのボイスクローニング、そしてローカル向けおよび高スループット提供向けの複数の推論経路が強調されています。

特徴

エンドツーエンドのオムニモーダルアーキテクチャ

SigLip2、Whisper-medium、CosyVoice2、Qwen3-8B上に構築されたエンドツーエンドのオムニモーダルモデルで、9Bパラメータを備えています。

リアルタイムライブ配信

全二重のマルチモーダルライブ配信をサポートし、相互にブロックすることなく連続した音声および動画ストリームを取り込みながら、テキストと音声を生成します。

音声対話と音声制御

英語と中国語でのバイリンガル音声対話に対応し、音声の切り替えに加え、短い参照クリップからのボイスクローニングとロールプレイも可能です。

Instructモードとthinkingモード

1つのモデルでinstructモードとthinkingモードの両方をサポートし、効率重視と推論重視の対話スタイルを選べます。

高解像度視覚と多言語対応

最大180万画素の高解像度画像と最大10 fpsの高フレームレート動画を処理でき、30以上の言語にわたる多言語機能を備えています。

柔軟な推論と提供オプション

Nvidia GPU上のPyTorch、llama.cpp、Ollama、int4およびGGUFの量子化モデル、vLLM、SGLang、FlagOSを含む複数のデプロイ経路を提供します。

ユースケース

  • リアルタイムのマルチモーダルアシスタント

    ライブシーンを見て、入力音声を聞き、あるモダリティが終わるのを待たずに次の応答を返せるアシスタントを構築します。

  • オンデバイスまたはローカルデモ

    公開されているWebデモや対応するCPUフレンドリーなランタイムを使用して、スマートフォン、Mac、またはGPU対応デバイスでローカルデモを実行します。

  • 音声対話とボイスクローニング

    バイリンガル会話、設定可能な音声、または短い参照録音からのボイスクローニングが必要な音声アプリケーションを作成します。

  • 文書およびOCRワークフロー

    複雑な画像や文書からテキストを抽出し、高解像度入力のサポートが役立つOCR中心のワークフローで活用します。

  • 高スループット提供

    プロジェクトでより効率的なバッチ推論や本番運用向け推論が必要な場合は、vLLMやSGLangでより高いスループットの応答提供を行います。

Pros and Cons

Pros

  • 視覚、音声、テキスト、全二重ストリーミングを1つのモデルで統合しています。
  • 同じモデル内でinstructモードとthinkingモードの両方をサポートします。
  • llama.cpp、Ollama、vLLM、SGLang、量子化形式を含むローカルおよび提供向けのオプションを備えています。
  • バイリンガル音声機能、設定可能な音声、参照音声を使ったボイスクローニングを含みます。
  • 高解像度画像と高フレームレート動画を処理しつつ、30以上の言語にも対応します。

Cons

  • ソースには、モデルページ上での推論に関する明確な価格や利用条件が示されていません。
  • いくつかの性能主張はベンチマークに基づくため、特定のワークロードでは文脈に応じて評価する必要があります。
  • 最も完全な構成はNvidia GPUを用いたPyTorch推論として説明されているため、軽量なローカル構成ではトレードオフが生じる可能性があります。

FAQ

MiniCPM-o 4.5は何に使われますか?

MiniCPM-o 4.5は、視覚、音声、全二重ライブ配信向けのマルチモーダルモデルとして紹介されています。ページでは、APIサービスを通じた従来のテキストおよび視覚言語リクエストにも対応していると記載されています。

MiniCPM-o 4.5はどのように実行またはデプロイできますか?

ページでは、フル精度での基本的な利用方法として、Nvidia GPUを用いたPyTorch推論が推奨されています。また、ローカルCPU推論向けのllama.cppとOllama、量子化されたint4およびGGUFモデル、高スループット提供向けのvLLMとSGLang、マルチチップバックエンド向けのFlagOSも挙げられています。

どのような入力と出力をサポートしていますか?

ソースによると、このモデルは英語と中国語でのバイリンガルなリアルタイム音声対話に対応し、画像、動画、音声、テキスト、マルチモーダルなライブストリームを処理できます。

このモデルの主なコンテンツと言語機能は何ですか?

ページでは、このモデルは最大180万画素の高解像度画像、最大10 fpsの高フレームレート動画を処理でき、30以上の言語に対応していると説明されています。

MiniCPM-o 4.5は標準的なマルチモーダルモデルと何が違いますか?

ソースでは、全二重のマルチモーダルライブ配信メカニズムとプロアクティブな対話が強調されており、モデルがライブシーンに応じて1 Hzで発話するかどうかを判断できるとされています。流動的なリアルタイムのオムニモーダル対話に有用と説明されています。

Quick Facts

プラットフォーム
Hugging Face
モデルリポジトリ
openbmb/MiniCPM-o-4_5
カテゴリ
マルチモーダルAIモデル
主なモダリティ
テキスト、視覚、音声、オーディオ、動画
ソースドメイン
huggingface.co
デプロイオプション
PyTorch、llama.cpp、Ollama、vLLM、SGLang、FlagOS