端到端全模态架构
构建为端到端全模态模型,基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,拥有 9B 参数。
MiniCPM-o 4.5 是 openbmb 在 Hugging Face 上推出的一款多模态模型,面向手机和本地设备上的视觉、语音、文本以及全双工直播。模型页面将其描述为 MiniCPM-o 系列中最新、最强大的模型,拥有 9B 参数,并采用基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B 的端到端架构。
其能力核心在于实时交互:它可以处理连续的音频和视频流,同时生成文本和语音,并在直播场景中支持主动响应。页面还强调了强大的 OCR 和文档解析性能、双语语音对话、可配置声音、基于参考音频的声音克隆,以及适用于本地和高吞吐量部署的多种推理路径。
构建为端到端全模态模型,基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,拥有 9B 参数。
支持全双工多模态直播,在持续接收音频和视频流的同时生成文本和语音,互不阻塞。
支持英语和中文的双语语音对话,具备可配置声音,还支持基于短参考片段的声音克隆和角色扮演。
在单一模型中同时支持 instruct 和 thinking 模式,让用户在效率优先和推理优先的交互风格之间进行选择。
支持最高 180 万像素的高分辨率图像和最高 10 fps 的高帧率视频,并具备覆盖 30 多种语言的多语言能力。
提供多种部署路径,包括 Nvidia GPU 上的 PyTorch、llama.cpp、Ollama、int4 和 GGUF 量化模型、vLLM、SGLang 和 FlagOS。
构建能够观看直播场景、聆听传入音频,并在一个模态结束前就开始用另一种模态回应的助手。
使用发布的网页演示或支持 CPU 的运行时,在手机、Mac 或支持 GPU 的设备上运行本地演示。
创建需要双语对话、可配置声音或基于短参考录音进行声音克隆的语音应用。
从复杂图像或文档中提取文本,并处理受益于高分辨率输入支持的 OCR 密集型工作流。
在项目需要更高效的批量或生产式推理时,使用 vLLM 或 SGLang 以更高吞吐量提供模型响应。
MiniCPM-o 4.5 被定位为用于视觉、语音和全双工直播的多模态模型。页面还提到,它通过 API 服务支持传统文本和视觉-语言请求。
页面将带有 Nvidia GPU 的 PyTorch 推理描述为全精度使用的基础推荐方式。它还列出了用于本地 CPU 推理的 llama.cpp 和 Ollama、量化的 int4 和 GGUF 模型、用于更高吞吐量服务的 vLLM 和 SGLang,以及用于多芯片后端的 FlagOS。
来源说明该模型支持英语和中文的双语实时语音对话,并且可以处理图像、视频、音频、文本和多模态直播流。
页面称该模型可以处理高达 180 万像素的高分辨率图像、最高 10 fps 的高帧率视频,并支持 30 多种语言。
来源强调了全双工多模态直播机制和主动交互,即模型可以根据直播场景以 1 Hz 决定是否发言。它被描述为适合流畅的实时全模态对话。
Talkpal is an AI-powered language learning web and mobile app for practicing speaking, listening, writing, and pronunciation. It offers guided courses, roleplays, and call-style conversation practice across 130+ languages.
CAMB.AI Streams 可为 YouTube、Twitch、X 等直播平台提供多语言实时配音,接入现有直播流程,支持常用流媒体协议,无需后期制作。
Tavus is an AI video platform for building real-time, face-to-face agents, digital twins, and AI companions. It combines APIs, custom replicas, and multilingual conversational workflows for developers and teams.
AakarDev AI helps teams manage AI provider access, project-level setups, logs, and analytics from one dashboard. It supports BYOK workflows and lists providers including OpenAI, Google Gemini, Anthropic, Groq, Mistral AI, and Perplexity AI.
Sanota is an app that turns spoken memories, reflections, and interviews into clear written stories. It supports personal storytelling, family history, and shared memories, with guided prompts and subscription pricing.
Official HeyGen API documentation for building AI avatar videos, translations, lipsync, and interactive video-agent sessions. It supports direct API use plus MCP and CLI-style workflows for developers and AI agents.