UStackUStack
MiniCPM-o 4_5 icon

MiniCPM-o 4_5

MiniCPM-o 4_5 是 9B 全雙工多模態模型,支援即時影像/音訊串流,並可同時產生文字與語音輸出。

MiniCPM-o 4_5

MiniCPM-o 4_5 是什麼?

MiniCPM-o 4_5 是一個端到端全模態即時互動的開源模型,結合視覺、語音與文字。它設計用於處理即時影像與音訊串流,讓模型能感知周遭情境,並以同時產生的文字與語音回應。

此模型採用端到端方式建構,包含 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 等元件,總參數規模為 9B。其核心目的是實現全雙工多模態串流—在處理連續輸入的同時產生輸出,而不互相阻塞。

主要特色

  • 全雙工多模態即時串流(文字 + 語音): 同時處理連續影像與音訊輸入串流,並產生同步文字與語音輸出,實現「看、聽、說」的流暢即時互動循環。
  • ~1Hz 決策頻率的 主動互動: 持續監控輸入影像/音訊,以 1Hz 頻率決定是否發言,支援基於場景理解的主動行為,如發起提醒或評論。
  • 單一模型的 instruct 與 thinking 模式: 在相同模型配置下支援「instruct」與「thinking」模式,涵蓋不同情境的效率/效能權衡。
  • 可配置語音的雙語即時語音對話: 支援即時雙語(英文/中文)語音對話,並包含可配置的語音輸出。
  • 透過參考音訊的語音克隆與角色扮演: 在推論時使用簡單參考音訊片段,即可實現語音克隆與角色扮演,頁面指出其克隆效能超越 CosyVoice2 等工具。
  • 多模態輸入的高解析度與影像處理量: 可高效處理高解析度影像(最高 180 萬像素)與高 FPS 影片(最高 10fps),不限長寬比。
  • 英文文件 OCR/文件解析: 在 OmniDocBench 上提供端到端英文文件解析效能,頁面指出其表現超越頁面提及的專有模型與 DeepSeek-OCR 2 等專業 OCR 工具。
  • 多語言支援(30+ 種語言): 包含超過 30 種語言的多語言支援。
  • 本地使用的可配置推論選項: 支援 NVIDIA GPU 上的 PyTorch 推論、llama.cpp 與 Ollama 的端側適配(CPU 推論)、多尺寸量化 int4/GGUF 模型、vLLM 與 SGLang 的高吞吐量/記憶體高效推論,以及 FlagOS 的統一多晶片後端外掛。

如何使用 MiniCPM-o 4_5

  1. 依硬體選擇推論路徑: NVIDIA GPU 上使用 PyTorch 進行簡單加速,或選擇 llama.cpp/Ollama 等端側選項進行 CPU 推論。
  2. 從提供的示範開始: 頁面指出有開源的網頁示範,可在本地裝置(例如 GPU/PC 如 MacBook)上提供全雙工多模態即時串流體驗。
  3. 使用支援後端執行推論: 依優先吞吐量、記憶體效率或輕量部署,選擇 vLLM、SGLang、量化 GGUF/int4 或 FlagOS 外掛。

使用情境

  • 手機/工作站的全雙工即時輔導或助理: 使用連續音訊/影像輸入,支援包含文字與語音的對話式即時回應。
  • 即時會議或工作室式評論: 監控進行中場景,觸發主動評論或提醒,而無需純反應式輪流。
  • 具語音個人化的雙語客戶支援: 實現即時英文/中文語音對話並配置語音;適當時可使用語音克隆/角色扮演。
  • 即時文件擷取與解析: 輸入高解析度影像進行端到端英文文件解析,目標為從文件產生結構化輸出,而非僅 OCR 流程。
  • 多語言場景理解: 利用模型超過 30 種語言的能力,處理多語言指令或回應,搭配視覺輸入。

常見問題

  • MiniCPM-o 4_5 支援哪些模態? 頁面描述支援視覺(圖像/影片)、語音(雙語即時對話)和文字,並具備全雙工即時串流功能,可在接收串流時同時產生輸出。

  • 它能在接收新音訊/影片時同時產生語音嗎? 可以。模型的全雙工串流機制描述為可同時處理輸入串流,並產生文字與語音輸出,而不會互相阻塞。

  • MiniCPM-o 4_5 包含語音自訂功能嗎? 可以。它支援英文/中文可配置語音,並在推論時使用參考音訊片段進行語音克隆和角色扮演。

  • 本地運行模型支援哪些硬體選項? 頁面列出 PyTorch 在 NVIDIA GPU 上的推論、透過 llama.cpp 和 Ollama 的 CPU 推論、量化 int4 GGUF 變體,以及 vLLM 和 SGLang 等服務/推論框架,外加 FlagOS 用於多晶片後端。

  • 它能處理哪些類型的視覺輸入? 它支援高解析度圖像最高達 180 萬像素,以及任意長寬比的高 FPS 影片最高達 10fps,如頁面所述。

替代方案

  • 其他多模態串流/即時 LLM 系統: 相較於全雙工全模態模型,有些方案使用獨立管線(例如視覺轉文字 + ASR + TTS)。這些方案在工作流程上不同:可能無法提供此處描述的端到端、並行輸入/輸出串流行為。
  • 無統一視覺串流的語音導向助理: 以語音為主的語音助理可處理即時對話,但可能無法以相同端到端方式結合持續視覺輸入與並行語音/文字輸出。
  • 本地 OCR/文件解析工具鏈: 針對文件解析任務,專用 OCR/文件提取工具可能更專業;然而,它們通常專注於文字提取,而非更廣泛的全模態即時互動(視覺 + 語音 + 主動行為)。
MiniCPM-o 4_5 | UStack