MiniCPM-o 4.5 icon

MiniCPM-o 4.5

MiniCPM-o 4.5 是 Hugging Face 上的多模態 AI 模型,支援視覺、語音、文字與全雙工即時串流,並提供 PyTorch、llama.cpp、Ollama、vLLM、SGLang 與量化格式等本地與伺服器推論方式。

MiniCPM-o 4.5

總覽

MiniCPM-o 4.5 是 openbmb 在 Hugging Face 上推出的多模態模型,專為手機與本地裝置上的視覺、語音、文字與全雙工即時串流而打造。模型頁面將其描述為 MiniCPM-o 系列中最新且能力最強的模型,具備 9B 參數,並採用基於 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 的端到端架構。

其能力核心在於即時互動:可處理連續的音訊與影片串流、同步生成文字與語音,並在即時場景中支援主動回應。頁面也強調其在 OCR 與文件解析方面的優異表現、雙語語音對話、可設定聲線、從參考音訊進行語音複製,以及多種適用於本地與高吞吐量部署的推論路徑。

功能

端到端全模態架構

基於 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 建構的端到端全模態模型,包含 9B 參數。

即時直播串流

支援全雙工多模態即時串流,在持續接收音訊與影片串流時同步生成文字與語音,且不會互相阻塞。

語音對話與聲音控制

支援英文與中文的雙語語音對話,具備可設定的聲線,並可透過短參考片段進行語音複製與角色扮演。

Instruct 與 thinking 模式

在單一模型中同時支援 instruct 與 thinking 模式,讓使用者可在效率導向與推理導向的互動風格之間選擇。

高解析度視覺與多語言支援

可處理最高 180 萬像素的高解析度影像與最高 10 fps 的高幀率影片,並具備 30 種以上語言的多語能力。

彈性推論與服務選項

提供多種部署路徑,包括 Nvidia GPU 上的 PyTorch、llama.cpp、Ollama、int4 與 GGUF 量化模型、vLLM、SGLang 以及 FlagOS。

使用情境

  • 即時多模態助理

    建立能觀看即時場景、聆聽傳入音訊,並在一種模態尚未結束前就能立即回應的助理。

  • 裝置端或本地示範

    使用釋出的網頁展示或支援 CPU 的執行環境,在手機、Mac 或具備 GPU 的裝置上執行本地示範。

  • 語音互動與聲音複製

    打造需要雙語對話、可設定聲線,或能從短參考錄音進行語音複製的語音應用。

  • 文件與 OCR 工作流程

    從複雜圖片或文件中擷取文字,並處理受益於高解析度輸入支援的 OCR 密集型工作流程。

  • 高吞吐量服務

    當專案需要更有效率的批次或生產式推論時,可使用 vLLM 或 SGLang 以更高吞吐量提供模型回應。

Pros and Cons

Pros

  • 將視覺、語音、文字與全雙工串流整合於單一模型。
  • 在同一模型中同時支援 instruct 與 thinking 模式。
  • 提供本地與服務導向選項,包括 llama.cpp、Ollama、vLLM、SGLang 以及量化格式。
  • 具備雙語語音功能、可設定聲線,以及以參考音訊進行語音複製。
  • 可處理高解析度圖片與高幀率影片,並支援 30 種以上語言。

Cons

  • 來源未提供模型頁面上的明確定價或推論存取條款。
  • 多項能力宣稱以基準測試為依據,應針對特定工作負載脈絡加以評估。
  • 頁面將最完整的設定描述為搭配 Nvidia GPU 的 PyTorch 推論,因此較輕量的本地設定可能需要在效能上做取捨。

FAQ

MiniCPM-o 4.5 用於什麼?

MiniCPM-o 4.5 被定位為一個用於視覺、語音與全雙工即時串流的多模態模型。頁面也提到,透過其 API 服務可支援傳統文字與視覺語言請求。

MiniCPM-o 4.5 可以如何執行或部署?

頁面將搭配 Nvidia GPU 的 PyTorch 推論描述為全精度的基本建議用法。也列出 llama.cpp 與 Ollama 可用於本地 CPU 推論、量化的 int4 與 GGUF 模型、可用於更高吞吐量服務的 vLLM 與 SGLang,以及用於多晶片後端的 FlagOS。

它支援哪些類型的輸入和輸出?

來源指出,模型支援英文與中文的雙語即時語音對話,並可處理圖片、影片、音訊、文字,以及多模態即時串流。

MiniCPM-o 4.5 的主要內容和語言能力是什麼?

頁面說明模型可處理最高達 180 萬像素的高解析度圖片、最高 10 fps 的高幀率影片,並支援 30 種以上語言。

MiniCPM-o 4.5 與一般多模態模型有何不同?

來源強調其全雙工多模態即時串流機制與主動互動能力,其中模型可根據即時場景以 1 Hz 決定是否發聲。它被描述為適合流暢的即時全模態對話。

Quick Facts

平台
Hugging Face
模型儲存庫
openbmb/MiniCPM-o-4_5
類別
多模態 AI 模型
主要模態
文字、視覺、語音、音訊、影片
來源網域
huggingface.co
部署選項
PyTorch、llama.cpp、Ollama、vLLM、SGLang、FlagOS