UStackUStack
Reka Edge icon

Reka Edge

Reka Edge 是可本地部署的多模态 AI 模型,用于实时视频分析与代理编排,输出目标边界框并支持机器人车载场景。

Reka Edge

Reka Edge 是什么?

Reka Edge 是一款可本地部署的多模态 AI 模型和平台,用于实时视觉理解和代理编排。它设计用于边缘硬件(包括 NVIDIA Jetson 级设备),以低延迟处理视频流并生成结构化输出,如目标边界框和内容高亮。

该产品适用于生产环境,强调速度和可靠性——特别针对机器人、实时监控以及需要持续与世界交互的物理代理系统场景。

主要特性

  • 本地边缘部署(本地运行 + API 访问): 无需依赖云端推理,支持实时工作流。
  • 实时视频分析: 直接从视频流执行目标检测场景理解等任务。
  • 通过边界框实现精确空间定位: 为工具、目标物体和障碍物生成边界框,支持空间决策(例如,识别“10mm 扳手”)。
  • 媒体/内容高亮生成: 支持从视觉媒体和内容生成高亮。
  • 带工具使用框架的多模态代理编排: 通过将视觉上下文映射到硬件/软件操作来协调多步动作(例如,调用机器人硬件 API 进行控制)。

如何使用 Reka Edge

  1. 选择执行方式:根据应用环境,将模型部署为本地运行或通过 API 调用。
  2. 提供视频输入:将视频数据流输入模型,进行连续视觉处理。
  3. 请求空间定位输出:使用引用场景中物体的提示,检索工具/目标/障碍物的边界框
  4. 将编排连接到控制逻辑:在使用边缘代理(例如,机器人)时,将模型的工具使用输出路由到硬件 API,实现多步任务执行。
  5. 迭代优化生产行为:在目标环境(边缘计算 vs. 其他部署目标)中验证延迟和输出格式。

使用场景

  • 机器人:工具定位与抓取规划 机器人的立体相机将高帧率视频流传输到边缘计算。Reka Edge 为请求的工具提取边界框,并支持多步工具使用动作以进行操作。

  • 机器人:杂乱工作空间中的场景理解 在非结构化环境中,模型实时识别相关物体和障碍物,实现更快、基于坐标的导航和交互决策。

  • 实时监控:目标检测与场景理解 部署于边缘硬件,持续解释视频源并生成适用于下游监控工作流的结构化视觉理解输出。

  • 汽车(车载):注重隐私的舱内视频理解 该产品描述为在车辆计算上离线运行,使用多个相机源(仪表盘/方向盘柱/后座监视器),支持对话式、上下文感知的舱内交互。

  • 汽车(车载):对话式时序查询与代理控制 Reka Edge 评估帧序列以解释展开事件(例如,驾驶员指向店面后询问“那家店什么时候关门?”),并可路由任务同时触发相关警报和信息娱乐动作。

常见问题

问:Reka Edge 是为云端还是边缘部署设计的?
答:页面描述了边缘优先的使用方式,包括本地运行,并在边缘计算上处理视频,以避免云端延迟。

问:Reka Edge 支持哪些类型的输入?
答:描述的工作流程聚焦于视频流,用于物体检测、场景理解和媒体/内容高亮生成。在机器人/汽车场景中,它摄入立体相机或多个车载相机的数据。

问:它为空间任务产生哪些输出?
答:针对物理代理工作流程,它提取工具、目标物体和障碍物的精确边界框,包括支持对话式指向(例如,识别视野中的特定工具)。

问:它如何帮助将视觉连接到动作?
答:页面描述了一个工具使用框架,其中多模态代理编排可以调用硬件 API(机器人控制)或将任务路由到相关车载系统(ADAS 警报和信息娱乐 API)。

问:页面是否提及模型大小或架构细节?
答:是的。它指出 Reka Edge 2 使用660M 参数 ConvNeXT V2 视觉编码器6B 参数语言主干,以及7B 总参数

替代方案

  • 云端托管的多模态 VLM(基于 API)
    这些可以提供强大的视觉能力,但通常涉及网络延迟,可能不太适合亚秒级、常开边缘控制循环。

  • 使用独立检测器 + 跟踪器的边缘优化视觉管道
    与集成多模态模型不同,团队可能组合专用物体检测器和跟踪系统。这可能需要更多自定义工程来实现对话式 grounding 和代理编排。

  • 基于其他边缘视觉语言模型的本地多模态代理框架
    如果您需要设备上的对话式视觉代理,可以考虑其他可本地运行的多模态模型栈;区别在于它们如何在目标运行时处理 grounding(边界框)和工具使用编排。

  • 非代理式视频分析平台
    视频分析工具可以检测物体和事件,但可能无法提供 Reka Edge 代理编排工作流程中描述的相同工具使用、多步动作路由。

Reka Edge | UStack