UStackUStack
Reka Edge icon

Reka Edge

Reka Edge: modelo de IA multimodal desplegable en local para análisis de video en tiempo real y salidas con bounding boxes, con orquestación agente.

Reka Edge

¿Qué es Reka Edge?

Reka Edge es un modelo y plataforma de IA multimodal desplegables en local para comprensión visual en tiempo real y orquestación agente. Está diseñado para ejecutarse en hardware edge (incluyendo configuraciones de clase NVIDIA Jetson) para que las aplicaciones procesen flujos de video con baja latencia y generen salidas estructuradas como bounding boxes de objetos y resúmenes de contenido.

El producto está posicionado para entornos de producción donde la velocidad y la fiabilidad importan, específicamente para escenarios como robótica, vigilancia en tiempo real y sistemas de agentes físicos que necesitan interacción continua con el mundo.

Características clave

  • Despliegue local en edge (ejecución local + acceso API): Diseñado para operar sin depender de inferencia en la nube, compatible con flujos de trabajo en tiempo real.
  • Análisis de video en tiempo real: Realiza tareas como detección de objetos y comprensión de escenas directamente desde flujos de video.
  • Anclaje espacial preciso mediante bounding boxes: Genera bounding boxes para herramientas, objetos objetivo y obstáculos para apoyar la toma de decisiones espaciales (p. ej., identificar “la llave de 10 mm”).
  • Generación de resúmenes de medios/contenido: Permite generar resúmenes a partir de medios visuales y contenido.
  • Orquestación agente multimodal con marco de uso de herramientas: Coordina acciones multi-paso mapeando contexto visual a operaciones de hardware/software (p. ej., invocando APIs de hardware robótico para control).

Cómo usar Reka Edge

  1. Elige un enfoque de ejecución: despliega el modelo para ejecución local o llámalo mediante API, según tu entorno de aplicación.
  2. Proporciona entradas de video: envía datos de video al modelo para procesamiento visual continuo.
  3. Solicita salidas con anclaje espacial: usa prompts que referencien objetos en la escena para obtener bounding boxes de herramientas/objetivos/obstáculos.
  4. Conecta la orquestación a tu lógica de control: al usar agentes edge (p. ej., robótica), enruta las salidas de uso de herramientas del modelo a tus APIs de hardware para ejecución de tareas multi-paso.
  5. Itera para comportamiento en producción: valida latencia y formatos de salida en tu entorno objetivo (computación edge vs. otros destinos de despliegue).

Casos de uso

  • Robótica: localización de herramientas y planificación de agarre Las cámaras estéreo de un robot envían video de alta tasa de fotogramas a computación edge. Reka Edge extrae bounding boxes para una herramienta solicitada y soporta acciones multi-paso de uso de herramientas para manipulación.

  • Robótica: comprensión de escenas en espacios de trabajo desordenados En entornos no estructurados, el modelo identifica objetos y obstáculos relevantes en tiempo real, permitiendo decisiones más rápidas basadas en coordenadas para navegación e interacción.

  • Vigilancia en tiempo real: detección de objetos y comprensión de escenas Despliega en hardware edge para interpretar flujos de video de forma continua y producir salidas de comprensión visual estructurada aptas para flujos de monitoreo downstream.

  • Automoción (a bordo): comprensión de video de cabina con prioridad en privacidad El producto se ejecuta offline en computación vehicular usando múltiples flujos de cámara (salpicadero/columna de dirección/monitores traseros) para soportar interacciones conversacionales y conscientes del contexto en la cabina.

  • Automoción (a bordo): consultas temporales conversacionales y control agente Reka Edge evalúa secuencias de fotogramas para interpretar eventos en desarrollo (p. ej., “¿Cuándo cierra ese lugar?” después de que el conductor apunta a una tienda) y puede enrutar tareas mientras activa alertas y acciones de infotainment relevantes.

Preguntas frecuentes

P: ¿Está Reka Edge diseñado para despliegue en la nube o en edge?
R: La página describe un uso priorizando edge, incluyendo ejecución local y procesamiento de video en cómputo edge para evitar latencia de la nube.

P: ¿Qué tipos de entradas maneja Reka Edge?
R: Los flujos de trabajo descritos se centran en transmisiones de video para detección de objetos, comprensión de escenas y generación de resúmenes de medios/contenidos. En escenarios de robótica/automotriz, ingiere datos de cámaras estéreo o múltiples cámaras vehiculares.

P: ¿Qué salidas produce para tareas espaciales?
R: Para flujos de trabajo de agentes físicos, extrae bounding boxes precisos para herramientas, objetos objetivo y obstáculos, incluyendo soporte para señalización conversacional (p. ej., identificar una herramienta específica en vista).

P: ¿Cómo ayuda a conectar visión con acciones?
R: La página describe un framework de uso de herramientas donde la orquestación de agentes multimodales puede llamar APIs de hardware (control robótico) o enrutar tareas a sistemas vehiculares relevantes (alertas ADAS e APIs de infotainment).

P: ¿La página menciona tamaños de modelo o detalles de arquitectura?
R: Sí. Indica que Reka Edge 2 usa un codificador de visión ConvNeXT V2 de 660M parámetros, un backbone de lenguaje de 6B parámetros y 7B parámetros totales.

Alternativas

  • VLMs multimodales alojados en la nube (basados en API)
    Pueden ofrecer capacidades visuales potentes, pero típicamente involucran latencia de red y pueden ser menos adecuados para bucles de control edge siempre activos en subsegundo.

  • Pipelines de visión optimizados para edge con detectores + trackers separados
    En lugar de un modelo multimodal integrado, los equipos pueden combinar detectores de objetos dedicados y sistemas de seguimiento. Esto puede requerir más ingeniería personalizada para lograr grounding conversacional y orquestación agentic.

  • Frameworks de agentes multimodales locales construidos alrededor de otros modelos visión-lenguaje capaces para edge
    Si necesitas un agente de visión conversacional en dispositivo, puedes considerar otras pilas de modelos multimodales ejecutables localmente; la diferencia está en cómo manejan el grounding (bounding boxes) y la orquestación de uso de herramientas en tu runtime objetivo.

  • Plataformas de análisis de video no agentic
    Las herramientas de análisis de video pueden detectar objetos y eventos, pero pueden no proporcionar el mismo uso de herramientas y enrutamiento de acciones multi-paso descrito para los flujos de orquestación agentic de Reka Edge.

Reka Edge | UStack