端到端全模態架構
基於 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 建構的端到端全模態模型,包含 9B 參數。
MiniCPM-o 4.5 是 openbmb 在 Hugging Face 上推出的多模態模型,專為手機與本地裝置上的視覺、語音、文字與全雙工即時串流而打造。模型頁面將其描述為 MiniCPM-o 系列中最新且能力最強的模型,具備 9B 參數,並採用基於 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 的端到端架構。
其能力核心在於即時互動:可處理連續的音訊與影片串流、同步生成文字與語音,並在即時場景中支援主動回應。頁面也強調其在 OCR 與文件解析方面的優異表現、雙語語音對話、可設定聲線、從參考音訊進行語音複製,以及多種適用於本地與高吞吐量部署的推論路徑。
基於 SigLip2、Whisper-medium、CosyVoice2 與 Qwen3-8B 建構的端到端全模態模型,包含 9B 參數。
支援全雙工多模態即時串流,在持續接收音訊與影片串流時同步生成文字與語音,且不會互相阻塞。
支援英文與中文的雙語語音對話,具備可設定的聲線,並可透過短參考片段進行語音複製與角色扮演。
在單一模型中同時支援 instruct 與 thinking 模式,讓使用者可在效率導向與推理導向的互動風格之間選擇。
可處理最高 180 萬像素的高解析度影像與最高 10 fps 的高幀率影片,並具備 30 種以上語言的多語能力。
提供多種部署路徑,包括 Nvidia GPU 上的 PyTorch、llama.cpp、Ollama、int4 與 GGUF 量化模型、vLLM、SGLang 以及 FlagOS。
建立能觀看即時場景、聆聽傳入音訊,並在一種模態尚未結束前就能立即回應的助理。
使用釋出的網頁展示或支援 CPU 的執行環境,在手機、Mac 或具備 GPU 的裝置上執行本地示範。
打造需要雙語對話、可設定聲線,或能從短參考錄音進行語音複製的語音應用。
從複雜圖片或文件中擷取文字,並處理受益於高解析度輸入支援的 OCR 密集型工作流程。
當專案需要更有效率的批次或生產式推論時,可使用 vLLM 或 SGLang 以更高吞吐量提供模型回應。
MiniCPM-o 4.5 被定位為一個用於視覺、語音與全雙工即時串流的多模態模型。頁面也提到,透過其 API 服務可支援傳統文字與視覺語言請求。
頁面將搭配 Nvidia GPU 的 PyTorch 推論描述為全精度的基本建議用法。也列出 llama.cpp 與 Ollama 可用於本地 CPU 推論、量化的 int4 與 GGUF 模型、可用於更高吞吐量服務的 vLLM 與 SGLang,以及用於多晶片後端的 FlagOS。
來源指出,模型支援英文與中文的雙語即時語音對話,並可處理圖片、影片、音訊、文字,以及多模態即時串流。
頁面說明模型可處理最高達 180 萬像素的高解析度圖片、最高 10 fps 的高幀率影片,並支援 30 種以上語言。
來源強調其全雙工多模態即時串流機制與主動互動能力,其中模型可根據即時場景以 1 Hz 決定是否發聲。它被描述為適合流暢的即時全模態對話。
Talkpal is an AI-powered language learning web and mobile app for practicing speaking, listening, writing, and pronunciation. It offers guided courses, roleplays, and call-style conversation practice across 130+ languages.
CAMB.AI Streams 可即時為直播多語配音,支援 YouTube、Twitch、X 等平台,並可透過常見串流協定無縫接入既有直播流程,免去後製步驟。
Tavus is an AI video platform for building real-time, face-to-face agents, digital twins, and AI companions. It combines APIs, custom replicas, and multilingual conversational workflows for developers and teams.
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Sanota is an app that turns spoken memories, reflections, and interviews into clear written stories. It supports personal storytelling, family history, and shared memories, with guided prompts and subscription pricing.
Official HeyGen API documentation for building AI avatar videos, translations, lipsync, and interactive video-agent sessions. It supports direct API use plus MCP and CLI-style workflows for developers and AI agents.