UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1 是一款闭源多模态模型,支持视频理解、图像推理和具身推理,面向机器人与物理世界工作流的结构化视觉输出需求。

Perceptron Mk1

什么是 Perceptron Mk1?

Perceptron Mk1 是 Perceptron 推出的一款闭源模型,专为视频理解和具身推理而设计。它旨在分析图像和视频,进行跨时间推理,并输出时间码、片段、点、框、多边形、轨迹和文本等结构化结果。

该模型面向物理 AI 和机器人工作流,可处理连续视觉流,而不是孤立帧。根据原文,它在图像、视频和具身推理任务上达到前沿性能,同时定价低于部分同类前沿产品。

主要特性

  • 视频时序推理:Mk1 可跨时间检查事件,并返回发生了什么以及何时发生的结构化拆解,适用于体育分析或烹饪视频等顺序任务。
  • 动态视频定位:它可在 32K token 上下文窗口内以最高 2 FPS 分析视频,并返回特定时刻的可操作时间码。
  • 多模态上下文匹配:用户可以提供参考图像或视频,让模型在新的图像和视频中查找匹配实例,无需微调或带标签训练数据。
  • 跨媒体对比:给定两段媒体内容,Mk1 可生成并排对比,支持审核和检查工作流。
  • 高级图像推理:模型支持指点、计数、OCR、仪表读数和结构化文档提取,包括复杂版式、表格、手写内容和多语言内容。
  • 结构化空间输出:Mk1 可将点、框、多边形、轨迹和片段原语作为一等输出,便于将结果输入下游机器人或视觉系统。

如何使用 Perceptron Mk1

典型流程是提交一张图像、一段视频或多个媒体输入,并附上说明任务的提示词。用户可以要求对象定位、计数、OCR、事件检测、时间码提取、对比或结构化文档转换。

用于机器人和视觉流水线时,该模型可用于标注遥操作视频、识别任务边界、检测成功或失败,并生成下游系统可直接消费的注释。

使用场景

  • 视频回顾与事件提取:分析长录制内容,识别特定动作发生的时间,例如抓取尝试、补货事件或其他任务里程碑。
  • 机器人数据标注:将遥操作视频转为监督标签、动作条件注释、质量评分或子任务边界,用于训练下游模型。
  • 视觉搜索与资产跟踪:使用参考图像或视频,在新的图像集或视频流中定位匹配对象。
  • 工业检测与读取任务:读取仪表、时钟、仪表盘、老旧控制面板,以及运行环境中的杂乱文本。
  • 文档结构化:将复杂文档转换为 HTML、JSON 或 Markdown,同时保留版式、表格、层级和手写标注。

FAQ

Mk1 在匹配或检测任务中需要微调吗? 不需要。原文称,它可以基于单张参考图像或视频进行上下文匹配,无需微调、带标签数据集或训练流水线。

它可以输出哪些类型的结果? 它既可以返回文本,也可以根据任务返回点、框、多边形、轨迹、片段和时间码等结构化空间输出。

Mk1 只用于视频吗? 不是。原文将其描述为在图像推理以及视频和具身推理方面都很强。

它能处理长视频吗? 它支持在 32K token 上下文窗口内以最高 2 FPS 进行动态帧率分析,这表明它支持更长形式的视频分析,但原文未说明硬性最大视频长度。

替代方案

  • 通用前沿多模态模型:源文将 Mk1 与来自 Google、OpenAI、Anthropic 和 Alibaba 的模型进行对比,这些模型也支持图像和视频推理,但其输出格式和定价可能不同。
  • 开源视觉语言模型:当团队希望使用开放权重或本地控制时,这类模型可能更合适,但源文将 Mk1 定位为一款专注于性能和结构化输出的闭源选项。
  • 带有独立组件的机器人感知流程:一些团队可能会分别使用检测、OCR、跟踪和标注模型,而 Mk1 旨在将这些步骤整合到一次模型调用中。
  • 传统文档 OCR/提取工具:这类工具在文本密集型文档中表现良好,但源文描述 Mk1 能在同一工作流中处理更复杂的版式、手写内容和多模态推理。
Perceptron Mk1 | UStack