Perceptron Mk1
Perceptron Mk1 est un modèle multimodal en source fermée pour la compréhension vidéo, le raisonnement image et les workflows robotiques avec sorties structurées.
Qu’est-ce que Perceptron Mk1 ?
Perceptron Mk1 est un modèle fermé de Perceptron conçu pour la compréhension vidéo et le raisonnement incarné. Il est destiné à analyser des images et des vidéos, à raisonner dans le temps et à produire des sorties structurées telles que des timecodes, des clips, des points, des boîtes, des polygones, des trajectoires et du texte.
Le modèle est positionné pour les workflows d’IA physique et de robotique, où il peut traiter des flux visuels continus plutôt que des images isolées. Selon la source, il atteint des performances de pointe sur les tâches de raisonnement sur image, vidéo et incarné, tout en étant proposé à un prix inférieur à certaines offres de pointe comparables.
Fonctionnalités clés
- Raisonnement temporel sur la vidéo : Mk1 peut examiner des événements dans le temps et renvoyer des décompositions structurées de ce qui s’est passé et quand, ce qui est utile pour des tâches séquentielles comme l’analyse sportive ou des vidéos de cuisine.
- Ancrage vidéo dynamique : il analyse la vidéo jusqu’à 2 FPS dans une fenêtre de contexte de 32K tokens et peut renvoyer des timecodes exploitables pour des moments précis.
- Correspondance multimodale en contexte : les utilisateurs peuvent fournir une image ou une vidéo de référence et demander au modèle de trouver des instances correspondantes dans de nouvelles images et vidéos, sans fine-tuning ni données d’entraînement étiquetées.
- Comparaison entre médias : à partir de deux contenus multimédias, Mk1 peut produire une comparaison côte à côte, facilitant les workflows de revue et d’inspection.
- Raisonnement avancé sur image : le modèle prend en charge le pointage, le comptage, l’OCR, la lecture d’instruments et l’extraction structurée de documents, y compris les mises en page complexes, les tableaux, l’écriture manuscrite et le contenu multilingue.
- Sorties spatiales structurées : Mk1 peut émettre des primitives de point, boîte, polygone, trajectoire et clip comme sorties de premier ordre, ce qui facilite l’intégration des résultats dans des systèmes de robotique ou de vision en aval.
Comment utiliser Perceptron Mk1
Un workflow typique commence par l’envoi d’une image, d’une vidéo ou de plusieurs entrées multimédias avec un prompt précisant la tâche. Les utilisateurs peuvent demander la localisation d’objets, le comptage, l’OCR, la détection d’événements, l’extraction de timecodes, la comparaison ou la conversion structurée de documents.
Pour la robotique et les pipelines visuels, le modèle peut être utilisé pour annoter des séquences de téléopération, identifier les limites des tâches, détecter le succès ou l’échec, et générer des annotations directement consommables par les systèmes en aval.
Cas d’usage
- Revue vidéo et extraction d’événements : analyser de longs enregistrements pour identifier quand une action spécifique se produit, comme des tentatives de saisie, des événements de réapprovisionnement ou d’autres jalons de tâche.
- Annotation de données pour la robotique : transformer des séquences de téléopération en étiquettes supervisées, annotations conditionnées par l’action, scores de qualité ou limites de sous-tâches pour l’entraînement de modèles en aval.
- Recherche visuelle et suivi d’assets : utiliser une image ou une vidéo de référence pour localiser des éléments correspondants dans de nouveaux ensembles d’images ou flux vidéo.
- Inspection industrielle et tâches de lecture : lire des jauges, horloges, tableaux de bord, anciens panneaux de contrôle et du texte dégradé dans des environnements opérationnels.
- Structuration de documents : convertir des documents complexes en HTML, JSON ou Markdown tout en préservant la mise en page, les tableaux, la hiérarchie et les annotations manuscrites.
FAQ
Mk1 nécessite-t-il un fine-tuning pour les tâches de correspondance ou de détection ?
Non. La source indique qu’il peut effectuer une correspondance en contexte à partir d’une seule image ou vidéo de référence, sans fine-tuning, sans jeu de données étiqueté ni pipeline d’entraînement.
Quels types de sorties peut-il produire ?
Il peut renvoyer du texte ainsi que des sorties spatiales structurées telles que des points, boîtes, polygones, trajectoires, clips et timecodes, selon la tâche.
Mk1 est-il uniquement destiné à la vidéo ?
Non. La source le présente comme performant en raisonnement sur image, ainsi qu’en vidéo et en raisonnement incarné.
Peut-il gérer de longues vidéos ?
Il prend en charge l’analyse dynamique à une cadence allant jusqu’à 2 FPS dans une fenêtre de contexte de 32K tokens, ce qui indique un support pour des analyses vidéo de longue durée, bien que la source ne mentionne pas de longueur maximale stricte.
Alternatives
- Modèles multimodaux de pointe généralistes : La source compare Mk1 à des modèles de Google, OpenAI, Anthropic et Alibaba qui gèrent aussi le raisonnement sur les images et les vidéos, même si leurs formats de sortie et leur tarification peuvent différer.
- Modèles vision-langage open source : Ils peuvent être préférables lorsque les équipes veulent des poids ouverts ou un contrôle local, mais la source positionne Mk1 comme une option en source fermée axée sur les performances et les sorties structurées.
- Pipelines de perception robotique avec composants séparés : Certaines équipes peuvent utiliser des modèles distincts pour la détection, l’OCR, le suivi et l’annotation, tandis que Mk1 vise à regrouper ces étapes en un seul appel de modèle.
- Outils OCR/extraction de documents traditionnels : Ils peuvent bien fonctionner pour les documents riches en texte, mais Mk1 est décrit comme capable de gérer des mises en page plus complexes, l’écriture manuscrite et le raisonnement multimodal dans le même workflow.
Alternatives
AakarDev AI
AakarDev AI est une plateforme puissante qui simplifie le développement d'applications d'IA avec une intégration fluide des bases de données vectorielles, permettant un déploiement rapide et une évolutivité.
Arduino VENTUNO Q
Arduino VENTUNO Q : ordinateur edge IA pour la robotique, combinant inférence accélérée et microcontrôleur pour un contrôle déterministe. Arduino App Lab.
BenchSpan
BenchSpan exécute des benchmarks d’agents IA en parallèle, consigne scores et échecs dans un historique, et facilite la reproductibilité via des exécutions taguées par commit.
Edgee
Edgee est une passerelle d’IA native edge qui compresse les prompts avant les fournisseurs LLM. API compatible OpenAI pour router 200+ modèles.
Codex Plugins
Utilisez Codex Plugins pour regrouper des skills, intégrations d’app et serveurs MCP en workflows réutilisables afin d’étendre l’accès à Gmail, Google Drive et Slack.
Wallie
Wallie est un framework open-source d’AI streamer pour VTuber, avec vision en temps réel, chat, TTS et avatar pour Twitch, YouTube ou Kick.