MiniCPM-V

MiniCPM-V 是 OpenBMB 的开源多模态 LLM 系列，支持图像、视频与文本理解；文档提供文本和视觉请求 API，并支持 iOS、Android 和 HarmonyOS 部署。

概述

MiniCPM-V 是 OpenBMB 的开源多模态 LLM 系列，专注于高效的视觉-语言理解。该仓库将其呈现为适用于图像、视频和文本工作流的口袋大小模型家族，其中 MiniCPM-V 4.6 被描述为该系列最新的高效模型。

该项目面向部署，而不只是离线研究使用。README 说明 MiniCPM-V 4.6 可在包括 iOS、Android 和 HarmonyOS 在内的常见移动平台上运行，API 指南则展示了如何通过 Chat Completions API 访问模型，支持纯文本和基于图像的请求。

核心功能

多模态图像、视频和文本理解

MiniCPM-V 面向图像、视频和文本输入的高效视觉-语言理解，仓库强调的是适合设备端部署，而不只是云端使用。

采用压缩视觉编码的轻量模型

README 强调 MiniCPM-V 4.6 是一款 1.3B 参数模型，专为高效率设计；仓库指出它通过 intra-ViT 早期压缩将视觉编码计算成本降低了 50% 以上。

灵活的视觉 token 压缩

该模型支持 4x 和 16x 的混合视觉 token 压缩率，让用户可根据任务在速度与性能之间做出实用权衡。

移动端部署支持

README 说明 MiniCPM-V 4.6 可部署于 iOS、Android 和 HarmonyOS，且边缘适配代码已开源。

基于 API 的推理

API 指南记录了用于纯文本和视觉语言请求的 Chat Completions 访问方式，包括用于图像理解流程的 base64 图像输入。

部署流程文档

仓库包含 API 用法和多 GPU 推理的专门文档，说明其同时支持服务式集成和更大规模的本地部署。

常见用例

多模态内容理解
当你需要模型在单一工作流中解读图像、短视频及其配套文本时，可使用 MiniCPM-V，例如视觉问答或多模态分析。
设备端移动部署
构建移动端 AI 体验的团队可以利用该模型的移动部署支持，在手机和平板等设备上运行视觉-语言功能。
基于 API 的应用
希望将模型集成到服务中的开发者可以使用已文档化的 Chat Completions API 和 base64 图像请求格式。
效率敏感型推理
评估性能权衡的工程师可以使用 4x 和 16x 混合视觉 token 压缩设置，在不同任务下平衡吞吐量与能力。
多 GPU 推理部署
需要超越单机规模的运维人员可以参考多 GPU 推理文档，为更大的本地部署提供起点。

Pros and Cons

Pros

在一个模型家族中同时支持图像、视频和文本理解。
MiniCPM-V 4.6 被描述为一款紧凑的 1.3B 参数模型，具有更高的编码效率。
仓库说明其可部署于 iOS、Android 和 HarmonyOS。
API 指南为纯文本和视觉语言用法都提供了具体请求示例。
专门文档覆盖 API 用法和多 GPU 推理，有助于适配不同部署场景。

Cons

文档主要围绕最新的 4.6 版本展开，因此较旧变体的信息在主页上不那么突出。
公开的 API 信息仅限于指南和一个免费试用密钥；所提供资料中未说明生产环境定价和服务限制。
该项目涵盖多个模型线和部署路径，因此具体实现方式可能会因使用 API、本地推理或移动端部署而异。

FAQ

MiniCPM-V 用于什么？

该仓库将 MiniCPM-V 描述为一个专注于高效视觉-语言理解的多模态 LLM 系列，覆盖图像、视频和文本输入。其 API 指南显示，MiniCPM-V 4.6 可通过 Chat Completions API 调用，支持纯文本和视觉语言请求。

如何通过 API 调用该模型？

API 指南记录了基础地址 `https://api.modelbest.cn/v1`，并展示了用于文本和图像输入的 Chat Completions 请求。对于图像，示例在 `image_url` 字段中使用了 base64 数据 URL。

是否有可公开使用的 API 或演示？

该仓库说明 MiniCPM-V 4.6 是该系列最新且最高效的模型，参数量为 1.3B，并支持在 iOS、Android 和 HarmonyOS 上部署。文档还提到可使用一个免费的公共 API key 进行试用。

MiniCPM-V 可以本地部署或跨多设备部署吗？

该仓库表示该系列支持在常见移动平台上进行高效部署，文档中还提供了在多 GPU 上运行推理的单独指南。主页也链接到了 API、技术报告和 cookbook 资源。

访问这个仓库是否需要付费 GitHub 套餐？

GitHub 的定价页面显示，GitHub 上的个人和组织均有免费套餐，而该项目本身作为一个开源仓库托管。模型 API 指南另外提到，可使用免费的公共 API key 试用 MiniCPM-V 4.6。

Quick Facts

类别: 多模态 AI 模型
项目类型: 开源 GitHub 仓库
主要任务: 图像、视频和文本理解
API 访问: Chat Completions API
支持的部署: iOS、Android、HarmonyOS
来源域名: github.com

MiniCPM-V 替代品

AakarDev AI

AakarDev AI 帮助团队在一个仪表板中管理 AI provider 访问、项目级设置、日志和分析，支持 BYOK 工作流，并涵盖 OpenAI、Google Gemini、Anthropic、Groq、Mistral AI 和 Perplexity AI。

Snapmark

Snapmark 是一款 VS Code 扩展，可在将剪贴板截图粘贴到 AI 聊天前进行标注。支持模糊遮盖、编号标注与大图自动缩放。

BookAI.chat

BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。

Skills Janitor

Skills Janitor 是一组托管于 GitHub 的斜杠命令，用于审计、跟踪和管理 Claude Code 与 OpenAI Codex skills。可查找重复项、损坏链接和未使用的 skills，并用独立命令清理。

Arduino VENTUNO Q

Arduino VENTUNO Q 是面向 AI 和机器人应用的边缘 AI 计算机，单板集成 AI 推理与确定性控制，并支持 Arduino App Lab。

FeelFish

FeelFish 是一款面向 AI 辅助小说写作的 PC 客户端，帮助小说作者规划人物与场景、撰写和修改长篇内容，并管理故事上下文。支持免费版和付费方案，兼容多种大模型服务商。