UStackUStack
MiniCPM5-1B icon

MiniCPM5-1B

MiniCPM5-1B 是一款开源 10 亿参数语言模型,适用于本地助手、编程代理、工具调用和推理任务,支持长上下文提示及快速聊天、思考模式,多种发布格式可匹配不同运行环境。

MiniCPM5-1B

什么是 MiniCPM5-1B?

MiniCPM5-1B 是 MiniCPM5 系列的首个 checkpoint,是一款稠密的 10 亿参数 Transformer,面向本地助手、编程代理、工具使用工作流和推理任务。它专为端侧和资源受限部署而设计,同时仍支持原生长上下文,并且可从同一 checkpoint 提供思考与非思考两种聊天模式。

该模型被定位为 10 亿参数级开源发布版本,并提供多种适用于不同运行环境的格式,包括用于 llama.cpp、Ollama 和 LM Studio 的 BF16 checkpoints、GGUF,以及用于 Apple Silicon 的 MLX。页面还介绍了围绕该模型的部署、微调支持资源,以及一个基于该模型的本地桌宠演示。

主要特性

  • 稠密 10 亿参数 Transformer 架构:适合更小规模部署,同时仍是一款通用因果语言模型。
  • 原生长上下文支持:标注的上下文长度为 131,072 tokens,适合更长的提示和扩展任务流程。
  • 混合推理模式:内置的 <think> 聊天模板可通过 enable_thinking 切换,使同一 checkpoint 既能用于快速聊天,也能用于深度推理。
  • 多种发布格式:提供 BF16、仅 SFT、base checkpoint、GGUF 和 MLX 版本,方便用户按运行环境选择。
  • 侧重工具使用与编程:该模型面向代理式工具调用、代码生成和复杂推理,MiniCPM GitHub 仓库中还提供了部署和微调配方。
  • 经过 RL 和 OPD 的后训练:发布模型的训练方案采用了 SFT、强化学习和 on-policy distillation。

如何使用 MiniCPM5-1B

选择适合你环境的 checkpoint 格式,然后在你偏好的推理后端或微调框架中加载它。如果你想要本地聊天行为,使用普通模式;如果需要推理,使用支持的聊天设置启用思考模板。仓库说明中提到,主要后端都提供了配方和 Agent Skills,这意味着部署和适配会有一条引导式路径。

使用场景

  • 个人硬件上的本地助手:运行一个紧凑模型,用于日常聊天、摘要和通用辅助,而无需依赖大型托管模型。
  • 编程代理工作流:在更偏好小型本地模型的环境中,用于代码生成和代理式工具调用。
  • 侧重推理的提示:切换到思考模式,处理更适合逐步深度响应的难题。
  • 长上下文任务:用于需要扩展上下文处理的提示、文档或对话。
  • Apple Silicon 或 llama.cpp 部署:在面向这些本地运行环境时,选择 MLX 或 GGUF 发布版本。

常见问题

MiniCPM5-1B 是聊天模型还是基础模型?
它以适用于聊天和推理的后训练 checkpoint 形式发布,页面也在模型目录中列出了单独的 base 和仅 SFT 版本。

它能同时支持快速回答和更深层推理吗?
可以。页面说明同一个 checkpoint 通过内置模板支持 Think 和 No Think 两种聊天模式。

它支持长上下文吗?
支持。模型信息中列出的上下文长度为 131,072 tokens。

有不同文件格式可用吗?
有。除主发布 checkpoint 外,模型列表还包括 BF16、GGUF 和 MLX 变体。

它只适合云端部署吗?
不是。该产品明确适用于端侧、本地部署以及资源受限场景。

替代方案

  • 其他 0.6B 到 1.2B 范围内的小型开源聊天模型,例如页面中提到的基线模型,当你希望获得相近的模型规模和本地部署目标时,是最接近的比较对象。
  • 更大的本地 LLM 可能提供更强的原始能力,但需要更多内存和算力,因此不太适合 MiniCPM5-1B 这种紧凑部署定位。
  • 同系列的基础 checkpoint 适合希望自行进行监督微调或后训练,而不是直接使用已发布聊天模型的用户。
  • 如果你的主要考量是运行环境兼容性而不是模型家族选择,那么其他家族中面向 GGUF 或 MLX 的模型构建版本也值得参考。
MiniCPM5-1B | UStack