MiniCPM-o 4_5

MiniCPM-o 4_5 是什麼？

MiniCPM-o 4_5 是一個端到端全模態即時互動的開源模型，結合視覺、語音與文字。它設計用於處理即時影像與音訊串流，讓模型能感知周遭情境，並以同時產生的文字與語音回應。

此模型採用端到端方式建構，包含 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 等元件，總參數規模為 9B。其核心目的是實現全雙工多模態串流—在處理連續輸入的同時產生輸出，而不互相阻塞。

主要特色

全雙工多模態即時串流（文字 + 語音）： 同時處理連續影像與音訊輸入串流，並產生同步文字與語音輸出，實現「看、聽、說」的流暢即時互動循環。
~1Hz 決策頻率的主動互動： 持續監控輸入影像/音訊，以 1Hz 頻率決定是否發言，支援基於場景理解的主動行為，如發起提醒或評論。
單一模型的 instruct 與 thinking 模式： 在相同模型配置下支援「instruct」與「thinking」模式，涵蓋不同情境的效率/效能權衡。
可配置語音的雙語即時語音對話： 支援即時雙語（英文/中文）語音對話，並包含可配置的語音輸出。
透過參考音訊的語音克隆與角色扮演： 在推論時使用簡單參考音訊片段，即可實現語音克隆與角色扮演，頁面指出其克隆效能超越 CosyVoice2 等工具。
多模態輸入的高解析度與影像處理量： 可高效處理高解析度影像（最高 180 萬像素）與高 FPS 影片（最高 10fps），不限長寬比。
英文文件 OCR/文件解析： 在 OmniDocBench 上提供端到端英文文件解析效能，頁面指出其表現超越頁面提及的專有模型與 DeepSeek-OCR 2 等專業 OCR 工具。
多語言支援（30+ 種語言）： 包含超過 30 種語言的多語言支援。
本地使用的可配置推論選項： 支援 NVIDIA GPU 上的 PyTorch 推論、llama.cpp 與 Ollama 的端側適配（CPU 推論）、多尺寸量化 int4/GGUF 模型、vLLM 與 SGLang 的高吞吐量/記憶體高效推論，以及 FlagOS 的統一多晶片後端外掛。

如何使用 MiniCPM-o 4_5

依硬體選擇推論路徑： NVIDIA GPU 上使用 PyTorch 進行簡單加速，或選擇 llama.cpp/Ollama 等端側選項進行 CPU 推論。
從提供的示範開始： 頁面指出有開源的網頁示範，可在本地裝置（例如 GPU/PC 如 MacBook）上提供全雙工多模態即時串流體驗。
使用支援後端執行推論： 依優先吞吐量、記憶體效率或輕量部署，選擇 vLLM、SGLang、量化 GGUF/int4 或 FlagOS 外掛。

使用情境

手機/工作站的全雙工即時輔導或助理： 使用連續音訊/影像輸入，支援包含文字與語音的對話式即時回應。
即時會議或工作室式評論： 監控進行中場景，觸發主動評論或提醒，而無需純反應式輪流。
具語音個人化的雙語客戶支援： 實現即時英文/中文語音對話並配置語音；適當時可使用語音克隆/角色扮演。
即時文件擷取與解析： 輸入高解析度影像進行端到端英文文件解析，目標為從文件產生結構化輸出，而非僅 OCR 流程。
多語言場景理解： 利用模型超過 30 種語言的能力，處理多語言指令或回應，搭配視覺輸入。

常見問題

MiniCPM-o 4_5 支援哪些模態？ 頁面描述支援視覺（圖像/影片）、語音（雙語即時對話）和文字，並具備全雙工即時串流功能，可在接收串流時同時產生輸出。
它能在接收新音訊/影片時同時產生語音嗎？ 可以。模型的全雙工串流機制描述為可同時處理輸入串流，並產生文字與語音輸出，而不會互相阻塞。
MiniCPM-o 4_5 包含語音自訂功能嗎？ 可以。它支援英文/中文可配置語音，並在推論時使用參考音訊片段進行語音克隆和角色扮演。
本地運行模型支援哪些硬體選項？ 頁面列出 PyTorch 在 NVIDIA GPU 上的推論、透過 llama.cpp 和 Ollama 的 CPU 推論、量化 int4 GGUF 變體，以及 vLLM 和 SGLang 等服務/推論框架，外加 FlagOS 用於多晶片後端。
它能處理哪些類型的視覺輸入？ 它支援高解析度圖像最高達 180 萬像素，以及任意長寬比的高 FPS 影片最高達 10fps，如頁面所述。

替代方案

其他多模態串流/即時 LLM 系統： 相較於全雙工全模態模型，有些方案使用獨立管線（例如視覺轉文字 + ASR + TTS）。這些方案在工作流程上不同：可能無法提供此處描述的端到端、並行輸入/輸出串流行為。
無統一視覺串流的語音導向助理： 以語音為主的語音助理可處理即時對話，但可能無法以相同端到端方式結合持續視覺輸入與並行語音/文字輸出。
本地 OCR/文件解析工具鏈： 針對文件解析任務，專用 OCR/文件提取工具可能更專業；然而，它們通常專注於文字提取，而非更廣泛的全模態即時互動（視覺 + 語音 + 主動行為）。

MiniCPM-o 4_5

MiniCPM-o 4_5 是什麼？

主要特色

如何使用 MiniCPM-o 4_5

使用情境

常見問題

替代方案

替代品

Lemon

PXZ AI

Gemma AI

Tavus

Spotit

AakarDev AI