UStackUStack
Reka Edge icon

Reka Edge

Reka Edge: lokal bereitstellbares multimodales KI-Modell für Echtzeit-Videoanalyse mit Bounding-Box-Ausgaben und agentischer Orchestrierung für Robotik.

Reka Edge

Was ist Reka Edge?

Reka Edge ist ein lokal bereitstellbares multimodales KI-Modell und eine Plattform für Echtzeit-Visuelles-Verständnis und agentische Orchestrierung. Es ist für Edge-Hardware konzipiert (einschließlich NVIDIA Jetson-Setups), damit Anwendungen Videoströme mit geringer Latenz verarbeiten und strukturierte Ausgaben wie Objekt-Bounding-Boxen und Inhalts-Highlights erzeugen können.

Das Produkt ist für Produktionsumgebungen positioniert, in denen Geschwindigkeit und Zuverlässigkeit zählen – speziell für Szenarien wie Robotik, Echtzeit-Überwachung und physische Agentensysteme, die kontinuierliche Interaktion mit der Welt benötigen.

Wichtige Funktionen

  • Lokale Edge-Bereitstellung (lokal ausführen + API-Zugriff): Konzipiert für den Betrieb ohne Cloud-Inferenz, unterstützt Echtzeit-Workflows.
  • Echtzeit-Videoanalyse: Führt Aufgaben wie Objekterkennung und Szenenverständnis direkt aus Videoströmen durch.
  • Präzise räumliche Verankerung via Bounding-Boxen: Erzeugt Bounding-Boxen für Werkzeuge, Zielobjekte und Hindernisse zur Unterstützung räumlicher Entscheidungsfindung (z. B. Identifizierung des „10-mm-Schraubenschlüssels“).
  • Generierung von Medien-/Inhalts-Highlights: Unterstützt die Erstellung von Highlights aus visuellen Medien und Inhalten.
  • Multimodale agentische Orchestrierung mit Tool-Use-Framework: Koordiniert mehrstufige Aktionen, indem visueller Kontext auf Hardware-/Software-Operationen abgebildet wird (z. B. Aufruf von Robotik-Hardware-APIs für Steuerung).

So verwenden Sie Reka Edge

  1. Wählen Sie einen Ausführungsansatz: Stellen Sie das Modell lokal bereit oder rufen Sie es per API auf, je nach Anwendungsumgebung.
  2. Stellen Sie Videoeingaben bereit: Streamen Sie Videodaten in das Modell für kontinuierliche visuelle Verarbeitung.
  3. Fordern Sie räumlich verankerte Ausgaben an: Verwenden Sie Prompts, die Objekte in der Szene referenzieren, um Bounding-Boxen für Werkzeuge/Ziele/Hindernisse abzurufen.
  4. Verbinden Sie Orchestrierung mit Ihrer Steuerlogik: Bei Edge-Agenten (z. B. Robotik) leiten Sie die Tool-Use-Ausgaben des Modells an Ihre Hardware-APIs für mehrstufige Aufgabenausführung weiter.
  5. Iterieren Sie für Produktionsverhalten: Validieren Sie Latenz und Ausgabeformate in Ihrer Zielumgebung (Edge-Computing vs. andere Bereitstellungsziele).

Anwendungsfälle

  • Robotik: Werkzeuglokalisierung und Greifplanung Die Stereokameras eines Roboters streamen hochauflösende Videodaten an Edge-Computing. Reka Edge extrahiert Bounding-Boxen für ein angefordertes Werkzeug und unterstützt mehrstufige Tool-Use-Aktionen für Manipulation.

  • Robotik: Szenenverständnis in unstrukturierten Arbeitsbereichen In unstrukturierten Umgebungen identifiziert das Modell relevante Objekte und Hindernisse in Echtzeit und ermöglicht schnellere, koordinatenbasierte Entscheidungen für Navigation und Interaktion.

  • Echtzeit-Überwachung: Objekterkennung und Szenenverständnis Bereitstellung auf Edge-Hardware zur kontinuierlichen Interpretation von Videofeeds und Erzeugung strukturierter visueller Verständnisausgaben für nachgelagerte Überwachungs-Workflows.

  • Automotive (im Fahrzeug): Datenschutzkonforme Kabinen-Videoanalyse Das Produkt läuft offline auf Fahrzeug-Computing mit mehreren Kamera-Feeds (Armaturenbrett/Lenksäule/Rücksitzmonitore), um konversationelle, kontextbewusste Kabineninteraktionen zu unterstützen.

  • Automotive (im Fahrzeug): Konversationelle temporale Abfragen und agentische Steuerung Reka Edge analysiert Frame-Sequenzen, um entfaltende Ereignisse zu interpretieren (z. B. „Wann schließt dieser Laden?“ nach Zeigen des Fahrers auf ein Geschäft), und leitet Aufgaben weiter, während relevante Warnungen und Infotainment-Aktionen ausgelöst werden.

FAQ

F: Ist Reka Edge für Cloud- oder Edge-Bereitstellung konzipiert?
A: Die Seite beschreibt edge-first-Nutzung, einschließlich lokaler Ausführung und Videoverarbeitung auf Edge-Compute, um Cloud-Latenz zu vermeiden.

F: Welche Eingaben verarbeitet Reka Edge?
A: Die beschriebenen Workflows konzentrieren sich auf Video-Streams für Objekterkennung, Szenenverständnis und Generierung von Medien-/Content-Highlights. In Robotik-/Automotive-Szenarien verarbeitet es Daten von Stereokameras oder mehreren Fahrzeugkameras.

F: Welche Ausgaben erzeugt es für räumliche Aufgaben?
A: Für physisch-agentische Workflows extrahiert es präzise Bounding Boxes für Werkzeuge, Zielobjekte und Hindernisse, inklusive Unterstützung für konversationelles Zeigen (z. B. Identifizierung eines spezifischen Werkzeugs im Sichtfeld).

F: Wie verbindet es Vision mit Aktionen?
A: Die Seite beschreibt ein Tool-Use-Framework, bei dem multimodale Agent-Orchestrierung Hardware-APIs (Robotersteuerung) aufrufen oder Aufgaben an relevante Fahrzeugsysteme weiterleiten kann (ADAS-Alarme und Infotainment-APIs).

F: Erwähnt die Seite Modellgrößen oder Architekturdetails?
A: Ja. Es wird angegeben, dass Reka Edge 2 einen 660M-Parameter-ConvNeXT-V2-Vision-Encoder, einen 6B-Parameter-Sprach-Backbone und 7B Gesamtparameter verwendet.

Alternativen

  • Cloud-gehostete multimodale VLMs (API-basiert)
    Diese bieten starke visuelle Fähigkeiten, erfordern aber typischerweise Netzwerklatenz und eignen sich weniger für subsekundenlange, immer-einsatzbereite Edge-Steuerungsschleifen.

  • Edge-optimierte Vision-Pipelines mit separaten Detektoren + Trackern
    Statt eines integrierten multimodalen Modells kombinieren Teams dedizierte Objektdetektoren und Tracking-Systeme. Dies erfordert mehr kundenspezifisches Engineering für konversationelles Grounding und agentische Orchestrierung.

  • Lokale multimodale Agent-Frameworks um andere edge-fähige Vision-Language-Modelle
    Für on-device konversationelle Vision-Agenten können andere lokal lauffähige multimodale Model-Stacks in Betracht gezogen werden; der Unterschied liegt in der Handhabung von Grounding (Bounding Boxes) und Tool-Use-Orchestrierung im Zielruntime.

  • Nicht-agentische Video-Analytics-Plattformen
    Video-Analytics-Tools erkennen Objekte und Ereignisse, bieten aber nicht dasselbe Tool-Use, mehrstufige Aktionsweiterleitung wie in den agentischen Orchestrierungs-Workflows von Reka Edge beschrieben.

Reka Edge | UStack