Reka Edge
Reka Edge est un modèle multimodal IA déployable localement pour l’analyse vidéo en temps réel et des sorties ancrées (boîtes englobantes) pour l’orchestration.
Qu’est-ce que Reka Edge ?
Reka Edge est un modèle et une plateforme IA multimodale déployables localement pour la compréhension visuelle en temps réel et l’orchestration agentique. Conçu pour fonctionner sur du matériel edge (y compris les configurations NVIDIA Jetson), il permet aux applications de traiter des flux vidéo avec une faible latence et de générer des sorties structurées telles que des boîtes englobantes d’objets et des points saillants de contenu.
Le produit est destiné aux environnements de production où la vitesse et la fiabilité comptent — notamment pour des scénarios comme la robotique, la surveillance en temps réel et les systèmes d’agents physiques nécessitant une interaction continue avec le monde.
Fonctionnalités clés
- Déploiement local edge (exécution locale + accès API) : Conçu pour fonctionner sans dépendre de l’inférence cloud, en supportant des flux de travail en temps réel.
- Analyse vidéo en temps réel : Effectue des tâches telles que la détection d’objets et la compréhension de scène directement à partir de flux vidéo.
- Ancrage spatial précis via boîtes englobantes : Produit des boîtes englobantes pour les outils, objets cibles et obstacles afin de supporter la prise de décision spatiale (ex. : identifier « la clé de 10 mm »).
- Génération de points saillants média/contenu : Supporte la génération de points saillants à partir de médias visuels et de contenu.
- Orchestration agentique multimodale avec un framework d’utilisation d’outils : Coordonne des actions multi-étapes en mappant le contexte visuel sur des opérations matériel/logiciel (ex. : invocation d’API matériel robot pour le contrôle).
Comment utiliser Reka Edge
- Choisir une approche d’exécution : déployer le modèle en local ou l’appeler via une API, selon votre environnement d’application.
- Fournir des entrées vidéo : diffuser des données vidéo dans le modèle pour un traitement visuel continu.
- Demander des sorties ancrées spatialement : utiliser des invites référencant des objets dans la scène pour récupérer des boîtes englobantes pour outils/cibles/obstacles.
- Connecter l’orchestration à votre logique de contrôle : pour les agents edge (ex. : robotique), router les sorties d’utilisation d’outils du modèle vers vos API matériel pour l’exécution de tâches multi-étapes.
- Itérer pour un comportement de production : valider la latence et les formats de sortie dans votre environnement cible (calcul edge vs. autres cibles de déploiement).
Cas d’usage
-
Robotique : localisation d’outils et planification de préhension Les caméras stéréo d’un robot diffusent une vidéo à haut débit d’images vers du calcul edge. Reka Edge extrait des boîtes englobantes pour un outil demandé et supporte des actions multi-étapes d’utilisation d’outils pour la manipulation.
-
Robotique : compréhension de scène dans des espaces de travail encombrés Dans des environnements non structurés, le modèle identifie en temps réel les objets et obstacles pertinents, permettant des décisions plus rapides basées sur des coordonnées pour la navigation et l’interaction.
-
Surveillance en temps réel : détection d’objets et compréhension de scène Déployé sur du matériel edge pour interpréter en continu les flux vidéo et produire des sorties de compréhension visuelle structurées adaptées aux flux de travail de surveillance en aval.
-
Automobile (embarqué) : compréhension vidéo cabine priorisant la confidentialité Le produit s’exécute hors ligne sur le calcul embarqué du véhicule en utilisant plusieurs flux de caméras (tableau de bord/colonne de direction/écrans arrière) pour supporter des interactions cabine conversationnelles et contextuelles.
-
Automobile (embarqué) : requêtes temporelles conversationnelles et contrôle agentique Reka Edge évalue des séquences d’images pour interpréter des événements en cours (ex. : « À quelle heure ce magasin ferme-t-il ? » après que le conducteur pointe une vitrine) et peut router des tâches tout en déclenchant des alertes et actions infotainment pertinentes.
FAQ
Q: Reka Edge est-il conçu pour le cloud ou le déploiement edge ?
R: La page décrit un usage edge-first, incluant l’exécution locale et le traitement vidéo sur calcul edge pour éviter la latence cloud.
Q: Quels types d’entrées Reka Edge gère-t-il ?
R: Les workflows décrits se concentrent sur les flux vidéo pour la détection d’objets, la compréhension de scène et la génération de points forts média/contenu. Dans les scénarios robotique/automobile, il ingère des données de caméras stéréo ou de plusieurs caméras véhicule.
Q: Quelles sorties produit-il pour les tâches spatiales ?
R: Pour les workflows d’agents physiques, il extrait des boîtes englobantes précises pour outils, objets cibles et obstacles, avec support pour le pointage conversationnel (ex. : identification d’un outil spécifique en vue).
Q: Comment aide-t-il à connecter vision et actions ?
R: La page décrit un framework d’utilisation d’outils où l’orchestration d’agents multimodaux peut appeler des API hardware (contrôle robotique) ou router des tâches vers les systèmes véhicule pertinents (alertes ADAS et API infotainment).
Q: La page mentionne-t-elle des tailles de modèle ou détails d’architecture ?
R: Oui. Elle indique que Reka Edge 2 utilise un encodeur vision ConvNeXT V2 à 660M paramètres, un backbone langage à 6B paramètres, et 7B paramètres totaux.
Alternatives
-
VLMs multimodaux hébergés cloud (basés API)
Ils offrent de fortes capacités visuelles mais impliquent typiquement une latence réseau et conviennent moins aux boucles de contrôle edge toujours actives en sub-seconde. -
Pipelines vision optimisés edge avec détecteurs + trackers séparés
Au lieu d’un modèle multimodal intégré, les équipes combinent détecteurs d’objets et systèmes de suivi dédiés. Cela peut nécessiter plus d’ingénierie custom pour l’ancrage conversationnel et l’orchestration agentique. -
Frameworks d’agents multimodaux locaux autour d’autres modèles vision-langage edge
Si vous avez besoin d’un agent vision conversationnel on-device, considérez d’autres stacks de modèles multimodaux locaux ; la différence réside dans la gestion de l’ancrage (boîtes englobantes) et de l’orchestration d’utilisation d’outils dans votre runtime cible. -
Plateformes d’analyse vidéo non-agentiques
Les outils d’analyse vidéo détectent objets et événements, mais ne fournissent pas la même utilisation d’outils et routage d’actions multi-étapes décrits pour les workflows d’orchestration agentique de Reka Edge.
Alternatives
Tavus
Tavus crée des systèmes IA capables de voir, entendre et répondre en temps réel aux interactions face à face, via des APIs.
HiringPartner.ai
HiringPartner.ai est une plateforme de recrutement autonome avec des agents IA qui sourcent, filtrent, appellent et interviewent les candidats 24h/24, réduisant le délai d’embauche de plusieurs semaines à seulement 48 heures.
Oli: Pregnancy Safety Scanner
Oli : Pregnancy Safety Scanner vous aide à vérifier la sécurité des aliments, soins, compléments et produits pendant la grossesse via scan photo/code-barres.
AgentMail
AgentMail est une API de boîte e-mail pour agents IA : créez, envoyez, recevez et recherchez des emails via REST pour des conversations à double sens.
Arduino VENTUNO Q
Arduino VENTUNO Q : ordinateur edge IA pour la robotique, combinant inférence accélérée et microcontrôleur pour un contrôle déterministe. Arduino App Lab.
Scriptmine
Scriptmine transforme les conversations d’audience en scripts prêts à tourner : questions communautaires et angles tendance pour écrire, éditer et enregistrer plus vite.