Perceptron Mk1

Perceptron Mk1 是一款闭源视觉模型，面向视频理解与具身推理，提供 API 访问和结构化输出，适用于机器人及其他物理世界工作流，并支持指向、计数、OCR 和文档提取等图像推理任务。

大语言模型

AI图像识别

AI智能体开发

访问网站

概述

Perceptron Mk1 是 Perceptron 推出的一款闭源模型，面向视频理解与具身推理。公司将其描述为面向物理世界的一层智能，适用于那些感知、时序和空间定位比纯文本生成更重要的工作负载。

该模型面向物理 AI 和机器人工作流，支持图像、视频和具身推理，并可输出点、框、多边形、轨迹、片段、HTML、JSON 和 Markdown 等结构化结果。源页面还展示了通过 API 进行检测、指向、计数、OCR、图像描述以及可提示视觉分析的开发者示例。

功能

视频与具身推理

Mk1 被描述为专为视频理解与具身推理而打造，强调在连续流上的时间推理，而不是孤立的静态快照。

带思维轨迹的时间推理

该模型可以对时间进行推理，生成事件的结构化拆解，并在不需要时可选择关闭推理。

长视频中的时间定位

它可在 32K token 上下文窗口内以动态帧率最高 2 FPS 分析视频，并可返回特定时刻的结构化时间码。

上下文内多模态匹配

网站称，可以使用一张参考图像或视频在新的媒体中查找匹配实例，也可以在无需微调或标注数据集的情况下比较两段媒体。

高级图像理解

Mk1 支持指向、计数、OCR、文档提取以及其他图像推理任务，包括对杂乱文本、模拟仪表和保持结构的表格的处理。

面向机器人工作流的结构化输出

该模型经过训练，可输出点、框、多边形、轨迹和片段等空间原语，供下游系统直接消费。

使用场景

机器人数据准备
使用 Mk1 解析遥操作视频，标注子任务边界，提取成功或失败信号，并将原始回合转化为用于下游策略训练的监督数据。
机器人运行时辅助
在推理阶段应用该模型，返回抓取可供性、约束检查、关系目标以及用于操作或导航系统的跨摄像头跟踪。
工业检测与安全
在工厂、仓库或施工图像和视频上运行该模型，以检测缺陷、标记安全问题，并在巡检过程中读取仪表。
媒体搜索与剪辑
使用时间定位和结构化输出来剪辑体育时刻、搜索影视库，或大规模审核 AI 生成内容。
地理空间监测
分析卫星、无人机和固定摄像头画面，用于基础设施监测、施工进度、植被侵占或灾后评估。

Pros and Cons

Pros

专为视频理解和具身推理而构建，而不仅仅是静态图像任务。
支持可接入机器人和自动化管线的结构化输出，包括空间原语和文档格式。
可通过单次模型调用处理多种实用视觉工作流，包括匹配、计数、OCR 和比较。
提供对长视频或连续视觉流很有用的时间推理和视频定位功能。

Cons

源页面在收集到的文本中未公布完整的价格、套餐限制或许可条款。
该模型被定位为闭源，因此不是开源权重选项。

FAQ

Perceptron Mk1 是为哪些场景设计的？

Perceptron Mk1 专为视频理解与具身推理而设计，并额外支持图像推理和结构化文档提取。该网站将其定位于物理世界应用，而非通用聊天。

它可以处理哪些类型的任务？

开发者页面展示了用于聚焦/缩放与裁剪、对话式指向、上下文学习、目标检测、计数、OCR 和图像描述等任务的 Python 风格示例。演示还展示了可对图像中的一个或多个类别进行分割的模式。

它如何处理视频和结构化输出？

网站说明，Mk1 会在 32K token 的上下文窗口内，以最高 2 FPS 的速度分析视频，并可返回结构化时间码、片段，以及点、框、多边形、轨迹和片段等其他空间输出。

它是开源的吗，还是通过商业许可证提供？

首页称 Mk1 是一个闭源模型系列发布。网站还表示，开发者可以通过 API 使用该模型，或联系获取权重的商业许可证。

Perceptron 的价格是多少？

定价页面在所收集的文本中没有显示已公布的套餐细节，因此无法从这里使用的源页面获得准确的价格、层级和限制信息。

Quick Facts

产品: Perceptron Mk1
类别: AI 开发工具
主要用途: 视频理解与具身推理
平台: 基于 API 的模型
公司: Perceptron Inc.
来源域名: perceptron.inc

Perceptron Mk1 替代品

AakarDev AI

AakarDev AI 帮助团队在一个仪表板中管理 AI provider 访问、项目级设置、日志和分析，支持 BYOK 工作流，并涵盖 OpenAI、Google Gemini、Anthropic、Groq、Mistral AI 和 Perplexity AI。

Arduino VENTUNO Q

Arduino VENTUNO Q 是面向 AI 和机器人应用的边缘 AI 计算机，单板集成 AI 推理与确定性控制，并支持 Arduino App Lab。

Benchspan

Benchspan 是一款 AI agent 安全平台，可发现 agent、实时阻止提示注入和数据外泄，并支持上线前红队测试，适用于生产环境中的 agent 团队，提供 Python 和 TypeScript SDK。

Edgee

Edgee 是面向编码代理和 LLM 应用的 AI gateway，可压缩 token 流量、跨模型路由请求，并提供可观测性与团队控制，帮助降低成本并保持会话持续运行。

CreateOS Sandbox

CreateOS Sandbox 是基于 Firecracker 微型虚拟机的隔离计算环境，用于运行代码和 agent 工作负载，支持私有网络、SDK、CLI 和 MCP 程序化控制。

Codex Plugins

Codex Plugins 将可复用技能、应用集成和 MCP 服务器打包为工作流，可在 Codex 应用中安装或通过 Codex CLI 使用，帮助扩展连接服务任务、复用指令和团队共享流程。