MiniCPM-V

MiniCPM-V 是 OpenBMB 推出的開源多模態 LLM 系列，支援圖片、影片與文字理解；文件提供文字與視覺 API 存取，並支援 iOS、Android、HarmonyOS 行動部署。

概覽

MiniCPM-V 是 OpenBMB 推出的開源多模態 LLM 系列，著重於高效率的視覺語言理解。儲存庫將其描述為適合圖片、影片與文字工作流程的口袋型模型家族，其中 MiniCPM-V 4.6 被描述為該系列最新的高效率模型。

此專案的設計目標是部署，而不僅僅是離線研究使用。README 說明 MiniCPM-V 4.6 可在 iOS、Android 與 HarmonyOS 等常見行動平台上執行，API 指南則展示如何透過 Chat Completions API 存取模型，支援純文字與基於圖片的請求。

核心功能

多模態圖片、影片與文字理解

MiniCPM-V 以單一模型系列支援圖片、影片與文字輸入上的高效率視覺語言理解，儲存庫強調的是裝置友善的部署，而不只是雲端使用。

具壓縮視覺編碼的輕量模型

README 強調 MiniCPM-V 4.6 是一個 1.3B 參數模型，著重高效率；儲存庫指出它透過 intra-ViT 早期壓縮將視覺編碼運算成本降低 50% 以上。

彈性的視覺 token 壓縮

模型支援 4x 與 16x 混合視覺 token 壓縮率，讓使用者可依任務在速度與效能之間取得實用平衡。

行動部署支援

README 表示 MiniCPM-V 4.6 可部署於 iOS、Android 與 HarmonyOS，且邊緣適配程式碼已開源。

以 API 為基礎的推論

API 指南文件化了文字-only 與視覺語言請求的 Chat Completions 存取方式，並包含用於圖片理解工作流程的 base64 圖片輸入。

部署工作流程文件

儲存庫包含專門的 API 使用與多 GPU 推論文件，顯示其同時支援服務式整合與更大規模的本地部署。

常見使用情境

多模態內容理解
當你需要模型在單一工作流程中解讀圖片、短影片與隨附文字，例如視覺問答或多模態分析時，可使用 MiniCPM-V。
裝置端行動部署
建置行動端 AI 體驗的團隊可利用其行動部署支援，在手機與平板等裝置上執行視覺語言功能。
API 驅動的應用程式
想把模型整合進服務的開發者，可使用文件化的 Chat Completions API 與 base64 圖片請求格式。
重視效率的推論
評估效能取捨的工程師，可使用混合 4x 與 16x 視覺 token 壓縮設定，為不同任務平衡吞吐量與能力。
多 GPU 推論架構
需要擴充到單機以外的操作者，可將多 GPU 推論文件作為更大型本地部署的起點。

Pros and Cons

Pros

以單一模型系列支援圖片、影片與文字理解。
MiniCPM-V 4.6 被描述為精巧的 1.3B 參數模型，並具備更佳的編碼效率。
儲存庫指出它可部署於 iOS、Android 與 HarmonyOS。
API 指南提供了文字-only 與視覺語言使用的具體請求範例。
專門文件涵蓋 API 使用與多 GPU 推論，有助於不同部署情境。

Cons

文件主要聚焦於最新的 4.6 版本，因此較舊變體的細節在主頁上較不突出。
公開 API 資訊僅限於指南與免費試用金鑰；所提供來源中未說明正式環境定價與服務限制。
此專案涵蓋多個模型線與部署路徑，因此若使用 API、本地推論或行動部署，實作選擇可能會有所不同。

FAQ

MiniCPM-V 的用途是什麼？

該儲存庫將 MiniCPM-V 描述為一系列聚焦於圖片、影片與文字輸入之高效率視覺語言理解的多模態 LLM。其 API 指南顯示，MiniCPM-V 4.6 可透過 Chat Completions API 呼叫，支援純文字與視覺語言請求。

如何透過 API 呼叫模型？

API 指南記載的基礎 URL 為 `https://api.modelbest.cn/v1`，並展示了文字與圖片輸入的 Chat Completions 請求範例。對於圖片，範例在 `image_url` 欄位中使用 base64 資料 URL。

是否有公開 API 或示範可用？

儲存庫指出 MiniCPM-V 4.6 是該系列最新且最高效的模型，參數量為 1.3B，並支援在 iOS、Android 與 HarmonyOS 上部署。文件也提到可使用免費公開 API key 試用該服務。

MiniCPM-V 可以在本地或跨多裝置部署嗎？

儲存庫表示該系列支援在常見行動平台上高效率部署，文件也包含在多 GPU 上執行推論的獨立指南。首頁同時連結到 API、技術報告與 cookbook 資源。

存取這個儲存庫是否需要付費 GitHub 方案？

GitHub 的定價頁面顯示，GitHub 上的個人與組織皆有免費方案，而該專案本身是以開源儲存庫形式託管。模型 API 指南另外提到可用免費公開 API key 試用 MiniCPM-V 4.6。

Quick Facts

分類: 多模態 AI 模型
專案類型: 開源 GitHub 儲存庫
主要任務: 圖片、影片與文字理解
API 存取: Chat Completions API
支援部署: iOS、Android、HarmonyOS
來源網域: github.com

MiniCPM-V 替代品

AakarDev AI

AakarDev AI 讓團隊透過單一儀表板管理 AI 供應商權限、專案設定、日誌與分析，支援 BYOK 工作流程，並可連接 OpenAI、Google Gemini、Anthropic、Groq、Mistral AI、Perplexity AI。

Snapmark

Snapmark 是一款 VS Code 擴充功能，可在貼到 AI 聊天前為剪貼簿截圖加註解，支援模糊遮蔽、編號標註與大型圖片自動縮放。

BookAI.chat

BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。

Skills Janitor

Skills Janitor 是一套託管於 GitHub 的斜線指令，用於稽核、追蹤與管理 Claude Code 和 OpenAI Codex skills；可找出重複項、失效連結與未使用 skills，並以獨立指令清理整理。

Arduino VENTUNO Q

Arduino VENTUNO Q 是一款適用於 AI 與機器人應用的邊緣 AI 電腦，結合 AI 推論與可預測控制，並可搭配 Arduino App Lab 使用。

FeelFish

FeelFish 是一款支援 AI 輔助小說寫作的 PC 用戶端，協助小說創作者規劃角色與場景、撰寫與修訂長篇內容，並管理故事脈絡。提供免費方案與付費方案，支援多家大型模型供應商。