UStackUStack
Reka Edge icon

Reka Edge

Reka Edge è un modello AI multimodale deployabile in locale per analisi video in tempo reale, con output ancorati come bounding box.

Reka Edge

Cos'è Reka Edge?

Reka Edge è un modello e piattaforma AI multimodale deployabile in locale per la comprensione visiva in tempo reale e l'orchestrazione agentica. È progettato per funzionare su hardware edge (inclusi setup NVIDIA Jetson-class) in modo che le applicazioni possano elaborare flussi video con bassa latenza e generare output strutturati come bounding box di oggetti e highlight di contenuto.

Il prodotto è posizionato per ambienti di produzione dove velocità e affidabilità contano, specificamente per scenari come robotica, sorveglianza in tempo reale e sistemi di agenti fisici che richiedono interazione continua con il mondo.

Caratteristiche Principali

  • Distribuzione edge locale (esecuzione locale + accesso API): Pensato per operare senza dipendere da inferenza cloud, supportando flussi di lavoro in tempo reale.
  • Analisi video in tempo reale: Esegue compiti come object detection e scene understanding direttamente dai flussi video.
  • Ancora spaziale precisa tramite bounding box: Produce bounding box per strumenti, oggetti target e ostacoli per supportare decisioni spaziali (es. identificare “la chiave da 10mm”).
  • Generazione di highlight media/contenuto: Supporta la generazione di highlight da media visivi e contenuti.
  • Orchestrazione agentica multimodale con framework di tool-use: Coordina azioni multi-step mappando contesto visivo su operazioni hardware/software (es. invocazione API hardware robot per controllo).

Come Usare Reka Edge

  1. Scegli un approccio di esecuzione: distribuisci il modello per esecuzione locale o chiamalo tramite API, a seconda del tuo ambiente applicativo.
  2. Fornisci input video: invia dati video in streaming al modello per elaborazione visiva continua.
  3. Richiedi output ancorati spazialmente: usa prompt che fanno riferimento a oggetti nella scena per ottenere bounding box per strumenti/target/ostacoli.
  4. Collega l'orchestrazione alla tua logica di controllo: quando usi agenti edge (es. robotica), instrada gli output tool-use del modello alle tue API hardware per esecuzione di task multi-step.
  5. Itera per comportamento in produzione: valida latenza e formati output nel tuo ambiente target (edge compute vs. altri target di deployment).

Casi d'Uso

  • Robotica: localizzazione strumenti e pianificazione grasp Le telecamere stereo di un robot inviano video ad alta frame-rate su edge compute. Reka Edge estrae bounding box per uno strumento richiesto e supporta azioni multi-step di tool-use per manipolazione.

  • Robotica: scene understanding in workspace disordinati In ambienti non strutturati, il modello identifica oggetti rilevanti e ostacoli in tempo reale, abilitando decisioni più veloci basate su coordinate per navigazione e interazione.

  • Sorveglianza in tempo reale: object detection e scene understanding Distribuisci su hardware edge per interpretare feed video in modo continuo e produrre output di comprensione visiva strutturati adatti per flussi di monitoraggio downstream.

  • Automotive (on-vehicle): comprensione video cabina privacy-first Il prodotto è descritto come funzionante offline su compute veicolare usando feed multi-camera (cruscotto/colonna sterzo/monitor sedili posteriori) per supportare interazioni conversazionali contestualizzate in cabina.

  • Automotive (on-vehicle): query temporali conversazionali e controllo agentico Reka Edge valuta sequenze di frame per interpretare eventi in svolgimento (es. “Quando chiude quel posto?” dopo che il guidatore indica un negozio) e può instradare task attivando alert e azioni infotainment rilevanti.

FAQ

D: Reka Edge è progettato per il cloud o per il deployment edge?
R: La pagina descrive un utilizzo edge-first, inclusa l'esecuzione in locale e l'elaborazione video su compute edge per evitare latenza cloud.

D: Che tipi di input supporta Reka Edge?
R: I workflow descritti si concentrano su flussi video per rilevamento oggetti, comprensione scena e generazione highlight media/contenuti. Negli scenari robotica/automotive, ingerisce dati da telecamere stereo o multiple telecamere veicolo.

D: Che output produce per task spaziali?
R: Per workflow physical-agent, estrae bounding box precisi per strumenti, oggetti target e ostacoli, inclusa supporto per pointing conversazionale (es. identificazione strumento specifico in vista).

D: Come aiuta a collegare visione ad azioni?
R: La pagina descrive un framework tool-use dove l'orchestrazione agent multimodale può chiamare API hardware (controllo robotico) o instradare task a sistemi veicolo rilevanti (alert ADAS e API infotainment).

D: La pagina menziona dimensioni modello o dettagli architettura?
R: Sì. Indica che Reka Edge 2 usa un encoder visione ConvNeXT V2 da 660M parametri, un backbone linguistico da 6B parametri e 7B parametri totali.

Alternative

  • VLMs multimodal cloud-hosted (basati su API)
    Offrono forti capacità visive ma tipicamente comportano latenza rete e sono meno adatti per loop di controllo edge always-on sub-second.

  • Pipeline visione edge-ottimizzate con detector + tracker separati
    Invece di un modello multimodale integrato, i team possono combinare detector oggetti dedicati e sistemi tracking. Questo può richiedere più engineering custom per grounding conversazionale e orchestrazione agentica.

  • Framework agent multimodal locali basati su altri modelli vision-language edge-capable
    Se serve un agent visione conversazionale on-device, considera altri stack modelli multimodal runnable localmente; la differenza è nella gestione grounding (bounding box) e orchestrazione tool-use nel tuo runtime target.

  • Piattaforme analytics video non-agentiche
    Gli strumenti analytics video rilevano oggetti ed eventi, ma potrebbero non fornire lo stesso tool-use, instradamento azioni multi-step descritto per i workflow orchestrazione agent di Reka Edge.

Reka Edge | UStack