MiniCPM-o 4.5 icon

MiniCPM-o 4.5

MiniCPM-o 4.5 是 Hugging Face 上的多模态 AI 模型,支持视觉、语音、文本和全双工直播,适用于本地与服务器推理,兼容 PyTorch、llama.cpp、Ollama、vLLM、SGLang 和量化格式。

MiniCPM-o 4.5

概述

MiniCPM-o 4.5 是 openbmb 在 Hugging Face 上推出的一款多模态模型,面向手机和本地设备上的视觉、语音、文本以及全双工直播。模型页面将其描述为 MiniCPM-o 系列中最新、最强大的模型,拥有 9B 参数,并采用基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 的端到端架构。

其能力核心在于实时交互:它可以处理连续的音频和视频流,同时生成文本和语音,并在直播场景中支持主动响应。页面还强调了强大的 OCR 和文档解析性能、双语语音对话、可配置声音、基于参考音频的声音克隆,以及适用于本地和高吞吐量部署的多种推理路径。

功能

端到端全模态架构

构建为端到端全模态模型,基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,拥有 9B 参数。

实时直播

支持全双工多模态直播,在持续接收音频和视频流的同时生成文本和语音,互不阻塞。

语音对话与声音控制

支持英语和中文的双语语音对话,具备可配置声音,还支持基于短参考片段的声音克隆和角色扮演。

Instruct 与 thinking 模式

在单一模型中同时支持 instruct 和 thinking 模式,让用户在效率优先和推理优先的交互风格之间进行选择。

高分辨率视觉与多语言支持

支持最高 180 万像素的高分辨率图像和最高 10 fps 的高帧率视频,并具备覆盖 30 多种语言的多语言能力。

灵活的推理与服务选项

提供多种部署路径,包括 Nvidia GPU 上的 PyTorch、llama.cpp、Ollama、int4 和 GGUF 量化模型、vLLM、SGLang 和 FlagOS。

使用场景

  • 实时多模态助手

    构建能够观看直播场景、聆听传入音频,并在一个模态结束前就开始用另一种模态回应的助手。

  • 端侧或本地演示

    使用发布的网页演示或支持 CPU 的运行时,在手机、Mac 或支持 GPU 的设备上运行本地演示。

  • 语音交互与声音克隆

    创建需要双语对话、可配置声音或基于短参考录音进行声音克隆的语音应用。

  • 文档与 OCR 工作流

    从复杂图像或文档中提取文本,并处理受益于高分辨率输入支持的 OCR 密集型工作流。

  • 高吞吐量服务

    在项目需要更高效的批量或生产式推理时,使用 vLLM 或 SGLang 以更高吞吐量提供模型响应。

Pros and Cons

Pros

  • 将视觉、语音、文本和全双工直播整合到一个模型中。
  • 在同一模型中同时支持 instruct 和 thinking 模式。
  • 提供面向本地和服务部署的选项,包括 llama.cpp、Ollama、vLLM、SGLang 和量化格式。
  • 包含双语语音功能、可配置声音以及基于参考音频的声音克隆。
  • 可处理高分辨率图像和高帧率视频,同时支持 30 多种语言。

Cons

  • 来源未在模型页面提供明确的推理定价或访问条款。
  • 若干能力说明基于基准测试,针对具体工作负载时应结合上下文评估。
  • 页面将最完整的配置描述为带 Nvidia GPU 的 PyTorch 推理,因此更轻量的本地方案可能需要权衡。

FAQ

MiniCPM-o 4.5 有什么用途?

MiniCPM-o 4.5 被定位为用于视觉、语音和全双工直播的多模态模型。页面还提到,它通过 API 服务支持传统文本和视觉-语言请求。

MiniCPM-o 4.5 可以如何运行或部署?

页面将带有 Nvidia GPU 的 PyTorch 推理描述为全精度使用的基础推荐方式。它还列出了用于本地 CPU 推理的 llama.cpp 和 Ollama、量化的 int4 和 GGUF 模型、用于更高吞吐量服务的 vLLM 和 SGLang,以及用于多芯片后端的 FlagOS。

它支持哪些类型的输入和输出?

来源说明该模型支持英语和中文的双语实时语音对话,并且可以处理图像、视频、音频、文本和多模态直播流。

MiniCPM-o 4.5 的主要内容和语言能力是什么?

页面称该模型可以处理高达 180 万像素的高分辨率图像、最高 10 fps 的高帧率视频,并支持 30 多种语言。

MiniCPM-o 4.5 与标准多模态模型有何不同?

来源强调了全双工多模态直播机制和主动交互,即模型可以根据直播场景以 1 Hz 决定是否发言。它被描述为适合流畅的实时全模态对话。

Quick Facts

平台
Hugging Face
模型仓库
openbmb/MiniCPM-o-4_5
类别
多模态 AI 模型
主要模态
文本、视觉、语音、音频、视频
来源域名
huggingface.co
部署选项
PyTorch、llama.cpp、Ollama、vLLM、SGLang、FlagOS