UStackUStack
MiniCPM-V icon

MiniCPM-V

MiniCPM-V, série LLM multimodale open source, analyse image, vidéo et texte pour une compréhension vision-langage efficace, pensée pour le déploiement sur edge mobile.

MiniCPM-V

Qu'est-ce que MiniCPM-V ?

MiniCPM-V est une série LLM multimodale open source d'OpenBMB conçue pour la compréhension vision-langage sur des entrées image, vidéo et texte, avec un accent sur un déploiement efficace sur les appareils. Le dépôt met en avant MiniCPM-V 4.6 (un modèle de 1,3 milliard de paramètres) comme option compacte destinée à bien fonctionner sur des plateformes edge comme les téléphones.

Dans ce projet, MiniCPM-V côtoie MiniCPM-o (variante omninmodale). MiniCPM-V se positionne autour d'un encodage image/vidéo efficace et d'une compression flexible des tokens visuels, tandis que MiniCPM-o étend la famille vers une interaction temps réel de bout en bout avec vidéo et audio en streaming.

Fonctionnalités clés

  • Compréhension vision-langage multimodale (entrées image, vidéo et texte) : La famille de modèles est conçue pour accepter des entrées visuelles et générer des réponses ancrées dans un contexte visuel et textuel.
  • Échelle légère MiniCPM-V 4.6 (1,3 milliard de paramètres) : Le dépôt liste MiniCPM-V 4.6 comme un modèle récent et efficace destiné au déploiement là où la puissance de calcul est limitée (ex. : mobile/edge).
  • Compression précoce Intra-ViT dans LLaVA-UHD v4 : MiniCPM-V 4.6 utilise une technique réduisant le coût de calcul de l'encodage visuel de plus de 50 %.
  • Compression mixte 4x/16x des tokens visuels : Le modèle supporte des taux de compression mixtes des tokens visuels, permettant un compromis configurable performance/efficacité selon les tâches.
  • Déploiement edge sur plateformes mobiles : Le dépôt indique que MiniCPM-V peut être déployé sur les plateformes mobiles courantes incluant iOS, Android et HarmonyOS, avec un code d'adaptation edge open source.
  • Démos open source et rapports techniques : Les actualités mentionnent une démo web temps réel disponible (déployable sur des appareils comme Mac ou GPU) et des rapports techniques publiés pour les modèles.

Comment utiliser MiniCPM-V

  • Commencez par cloner le dépôt et consulter les fichiers de documentation (ex. : README et dossiers docs) pour comprendre les parcours de configuration et démo fournis.
  • Pour tester le modèle rapidement, utilisez les web demos référencées dans le dépôt (y compris la « démo web temps réel » mentionnée dans les actualités).
  • Pour l'intégrer dans votre application, utilisez la base de code open source et l'approche d'adaptation edge pour plateformes mobiles (iOS/Android/HarmonyOS). Le dépôt indique aussi un support élargi pour MiniCPM-V 4.5 (via llama.cpp, vLLM et LLaMA-Factory), qui peut guider le choix de votre stack d'exécution.

Cas d'usage

  • Compréhension d'images sur mobile : Une app mobile peut envoyer une image plus une invite utilisateur pour obtenir une réponse vision-langage, en utilisant le cadre de déploiement edge de MiniCPM-V.
  • Compréhension vidéo pour clips courts : Pour des scénarios où le contexte vidéo court compte (ex. : décrire des événements dans un clip), la famille de modèles traite les entrées vidéo avec du texte.
  • Flux de chat multimodal adaptés aux appareils : Les équipes développant des assistants on-device peuvent utiliser l'échelle compacte MiniCPM-V 4.6 et les mécanismes de compression pour gérer la puissance de calcul lors de l'inférence.
  • Démos temps réel locales ou auto-hébergées : Le dépôt note une démo web temps réel déployable sur des appareils contrôlés par l'utilisateur, utilisable pour évaluation ou prototypage.
  • Prototypage multiplateforme (iOS/Android/HarmonyOS) : Les développeurs peuvent cibler plusieurs plateformes mobiles via le code d'adaptation edge référencé dans la description du projet.

FAQ

  • MiniCPM-V est-il limité aux images ? Non. Le dépôt décrit MiniCPM-V comme axé sur la compréhension vision-langage pour entrées image, vidéo et texte.

  • Que signifie « compression des tokens visuels » ici ? Le projet indique que MiniCPM-V 4.6 supporte une compression mixte 4x/16x des tokens visuels et utilise une technique de compression précoce intra-ViT pour réduire le coût de calcul de l'encodage visuel.

  • Puis-je l'exécuter sur un téléphone ? Le dépôt mentionne explicitement le déploiement sur iOS, Android et HarmonyOS et note que le code d'adaptation edge est open source.

  • Y a-t-il une option temps réel dans ce dépôt ? Oui. Les actualités mentionnent une démo web temps réel déployable sur des appareils comme Mac ou GPU. Le dépôt note aussi des problèmes de latence potentiels selon les conditions réseau.

  • Ce dépôt inclut-il des modèles au-delà de MiniCPM-V ? Oui. Il référence aussi MiniCPM-o, décrit comme un modèle omninmodal de bout en bout avec entrées vidéo/audio en streaming et sorties texte/parole en streaming.

Alternatives

  • Autres LLM multimodaux open source pour inférence edge/device : Au lieu de MiniCPM-V, vous pouvez chercher des modèles vision-langage compacts visant un déploiement efficace, offrant généralement différents compromis en taille de modèle et stratégie d'encodage.
  • API/services de chat multimodaux généralistes : Si vous n'avez pas besoin de déploiement sur appareil, vous pouvez utiliser des endpoints multimodaux hébergés qui gèrent le traitement image/vidéo côté serveur, simplifiant la configuration au prix d'une exécution hors de votre environnement.
  • Modèles omnimodaux en streaming (pour interaction temps réel) : Si votre objectif principal est l'interaction temps réel full-duplex avec audio/vidéo en streaming, vous préférerez peut-être l'approche omnimodale représentée par MiniCPM-o ou systèmes multimodaux temps réel similaires, plutôt que la compréhension image/vidéo seule.
  • Options de déploiement au niveau framework (runtime/outils) : Le repo mentionne le support pour des écosystèmes comme llama.cpp et vLLM avec MiniCPM-V 4.5 ; en alternative, vous pouvez comparer les outils d'exécution/runtime (serving de modèles vs. ports edge mobile) pour correspondre à vos contraintes de déploiement.