什么是 Perceptron Mk1?
Perceptron Mk1 是 Perceptron 推出的一款闭源模型,专为视频理解和具身推理而设计。它旨在分析图像和视频,进行跨时间推理,并输出时间码、片段、点、框、多边形、轨迹和文本等结构化结果。
该模型面向物理 AI 和机器人工作流,可处理连续视觉流,而不是孤立帧。根据原文,它在图像、视频和具身推理任务上达到前沿性能,同时定价低于部分同类前沿产品。
主要特性
- 视频时序推理:Mk1 可跨时间检查事件,并返回发生了什么以及何时发生的结构化拆解,适用于体育分析或烹饪视频等顺序任务。
- 动态视频定位:它可在 32K token 上下文窗口内以最高 2 FPS 分析视频,并返回特定时刻的可操作时间码。
- 多模态上下文匹配:用户可以提供参考图像或视频,让模型在新的图像和视频中查找匹配实例,无需微调或带标签训练数据。
- 跨媒体对比:给定两段媒体内容,Mk1 可生成并排对比,支持审核和检查工作流。
- 高级图像推理:模型支持指点、计数、OCR、仪表读数和结构化文档提取,包括复杂版式、表格、手写内容和多语言内容。
- 结构化空间输出:Mk1 可将点、框、多边形、轨迹和片段原语作为一等输出,便于将结果输入下游机器人或视觉系统。
如何使用 Perceptron Mk1
典型流程是提交一张图像、一段视频或多个媒体输入,并附上说明任务的提示词。用户可以要求对象定位、计数、OCR、事件检测、时间码提取、对比或结构化文档转换。
用于机器人和视觉流水线时,该模型可用于标注遥操作视频、识别任务边界、检测成功或失败,并生成下游系统可直接消费的注释。
使用场景
- 视频回顾与事件提取:分析长录制内容,识别特定动作发生的时间,例如抓取尝试、补货事件或其他任务里程碑。
- 机器人数据标注:将遥操作视频转为监督标签、动作条件注释、质量评分或子任务边界,用于训练下游模型。
- 视觉搜索与资产跟踪:使用参考图像或视频,在新的图像集或视频流中定位匹配对象。
- 工业检测与读取任务:读取仪表、时钟、仪表盘、老旧控制面板,以及运行环境中的杂乱文本。
- 文档结构化:将复杂文档转换为 HTML、JSON 或 Markdown,同时保留版式、表格、层级和手写标注。
FAQ
Mk1 在匹配或检测任务中需要微调吗? 不需要。原文称,它可以基于单张参考图像或视频进行上下文匹配,无需微调、带标签数据集或训练流水线。
它可以输出哪些类型的结果? 它既可以返回文本,也可以根据任务返回点、框、多边形、轨迹、片段和时间码等结构化空间输出。
Mk1 只用于视频吗? 不是。原文将其描述为在图像推理以及视频和具身推理方面都很强。
它能处理长视频吗? 它支持在 32K token 上下文窗口内以最高 2 FPS 进行动态帧率分析,这表明它支持更长形式的视频分析,但原文未说明硬性最大视频长度。
替代方案
- 通用前沿多模态模型:源文将 Mk1 与来自 Google、OpenAI、Anthropic 和 Alibaba 的模型进行对比,这些模型也支持图像和视频推理,但其输出格式和定价可能不同。
- 开源视觉语言模型:当团队希望使用开放权重或本地控制时,这类模型可能更合适,但源文将 Mk1 定位为一款专注于性能和结构化输出的闭源选项。
- 带有独立组件的机器人感知流程:一些团队可能会分别使用检测、OCR、跟踪和标注模型,而 Mk1 旨在将这些步骤整合到一次模型调用中。
- 传统文档 OCR/提取工具:这类工具在文本密集型文档中表现良好,但源文描述 Mk1 能在同一工作流中处理更复杂的版式、手写内容和多模态推理。
替代品
AakarDev AI
AakarDev AI 是一个强大的平台,通过无缝的向量数据库集成简化 AI 应用程序的开发,实现快速部署和可扩展性。
Arduino VENTUNO Q
Arduino VENTUNO Q 边缘AI电脑,集成AI推理与微控制器确定性控制;用 Arduino App Lab 打通嵌入式、Linux与边缘AI开发。
BenchSpan
BenchSpan 支持 AI agent 基准并行运行,自动记录得分与失败并整理运行历史;按提交标签复现,减少失败重跑浪费的 token。
Edgee
Edgee 边缘原生 AI 网关:在请求到达 LLM 供应商前压缩提示词,提供单一 OpenAI 兼容 API,路由 200+ 模型并按 token 降本降延迟。
Codex Plugins
使用 Codex Plugins 将技能、应用集成和 MCP 服务器打包成可复用工作流,扩展 Codex 访问 Gmail、Google Drive 与 Slack 等工具。
Wallie
Wallie 是一款开源 AI 直播框架,支持实时视觉、可配置人格、聊天互动、TTS 与头像输出,适合在 Twitch、YouTube 或 Kick 上打造 VTuber 风格或 AI 驱动直播。