MiniCPM-o 4_5 是什么?
MiniCPM-o 4_5 是一个开源端到端全模态实时交互模型,融合视觉、语音和文本。它专为实时视频和音频流设计,让模型能够感知发生的事件,并同时输出文本和语音响应。
该模型采用端到端方式构建,组件包括 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,总参数规模为 9B。其核心目的是实现全双工多模态流式交互——处理连续输入的同时生成输出,而不相互阻塞。
核心特性
- 全双工多模态实时流式交互(文本 + 语音):同时处理连续视频和音频输入流,并生成并发文本与语音输出,实现“看、听、说”的流畅实时交互循环。
- ~1Hz 决策频率的主动交互:持续监控输入视频/音频,以 1Hz 频率决定是否发言,支持基于场景理解的主动行为,如发起提醒或评论。
- 单模型指令与思考模式:在同一模型配置下支持“指令”和“思考”模式,覆盖不同场景下的效率/性能权衡。
- 可配置语音的双语实时对话:支持实时英中双语语音对话,并提供可配置的语音输出选项。
- 通过参考音频实现语音克隆与角色扮演:推理时使用简单参考音频片段即可实现语音克隆和角色扮演,页面称其克隆性能超越 CosyVoice2 等工具。
- 多模态输入的高分辨率与视频吞吐:高效处理高分辨率图像(最高 180 万像素)和高帧率视频(最高 10fps),支持任意宽高比。
- 英文文档 OCR/解析:在 OmniDocBench 上提供端到端英文文档解析性能,页面指出其超越页面引用的专有模型及 DeepSeek-OCR 2 等专用 OCR 工具。
- 多语言能力(30+ 语言):支持超过 30 种语言的多语言能力。
- 本地推理的可配置选项:支持 NVIDIA GPU 上的 PyTorch 推理,以及 llama.cpp 和 Ollama(CPU 推理)的端侧适配;提供多种尺寸的量化 int4/GGUF 模型;vLLM 和 SGLang 用于高吞吐/内存高效推理;FlagOS 作为统一多卡后端插件。
如何使用 MiniCPM-o 4_5
- 根据硬件选择推理路径:NVIDIA GPU 上使用 PyTorch 实现简单加速,或选择 llama.cpp/Ollama 等端侧选项进行 CPU 推理。
- 从提供的 Demo 开始:页面提供开源 Web Demo,在本地设备(如 GPU/PC 或 MacBook)上实现全双工多模态实时流式体验。
- 运行推理:根据吞吐量、内存效率或紧凑部署需求,选择支持的后端(vLLM、SGLang、量化 GGUF/int4 或 FlagOS 插件)。
使用场景
- 手机/工作站上的全双工实时辅导或助手:利用连续音频/视频输入,支持包含文本和语音输出的对话式实时响应。
- 实时会议或演播室式解说:监控进行中的场景,触发主动评论或提醒,而非纯被动轮流交互。
- 带语音个性化的双语客服:实现实时英中语音对话并配置语音;适当时使用语音克隆/角色扮演。
- 实时文档捕获与解析:输入高分辨率图像,进行端到端英文文档解析,目标是从文档生成结构化输出,而非仅 OCR 流程。
- 多语言场景理解:利用模型声明的 >30 语言能力,结合视觉输入处理多语言指令或响应。
常见问题
-
MiniCPM-o 4_5 支持哪些模态? 页面描述支持视觉(图像/视频)、语音(双语实时对话)和文本,全双工实时流式传输,输出可与输入流并发生成。
-
它能在接收新音频/视频的同时生成语音吗? 可以。模型的全双工流式机制描述为同时处理输入流并生成并发文本和语音输出,无相互阻塞。
-
MiniCPM-o 4_5 支持语音定制吗? 支持。它支持英文/中文可配置语音,并在推理时使用参考音频片段进行语音克隆和角色扮演。
-
本地运行模型支持哪些硬件选项? 页面列出 NVIDIA GPU 上的 PyTorch 推理、通过 llama.cpp 和 Ollama 的 CPU 推理、量化 int4 GGUF 变体,以及 vLLM 和 SGLang 等服务/推理框架,外加 FlagOS 用于多芯片后端。
-
它能处理哪些视觉输入? 它支持高达 180 万像素的高分辨率图像和任意宽高比下高达 10fps 的高帧率视频,如页面所述。
替代方案
- 其他多模态流式/实时 LLM 系统: 与全双工全模态模型不同,一些方案使用独立管道(例如,视觉转文本 + ASR + TTS)。这些方案在工作流程上不同:可能无法提供此处描述的端到端并发输入/输出流式行为。
- 无统一视觉流式的语音优先助手: 语音优先语音助手可处理实时对话,但可能无法以相同端到端方式结合连续视觉输入与并发语音/文本输出。
- 本地 OCR/文档解析工具链: 对于文档解析任务,专用 OCR/文档提取工具可能更专业;不过,它们通常专注于文本提取,而非更广泛的全模态实时交互(视觉 + 语音 + 主动行为)。
替代品
Lemon
Lemon AI 智能体,语音指令转任务,管理消息、研究、委派工作,无需切换应用。
PXZ AI
一个集成图像、视频、语音、写作和聊天工具的全能AI平台,以增强创造力和协作。
Gemma AI
Gemma AI 是一款智能应用程序,它会直接通过个性化的智能语音提醒来呼叫您,确保您不会错过重要的任务、约会或截止日期。
Tavus
Tavus 构建可在实时面对面互动中看、听并响应的 AI 系统,并通过 API 支持视频代理、数字孪生与 AI 伴侣部署。
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
Sanota
Sanota 把你的声音转成清晰优美的文字,轻松记录回忆与灵感,把想法整理成可阅读内容,支持免费开始。