Perceptron Mk1

Perceptron Mk1 是一款閉源的視覺模型，支援影片理解與具身推理，提供 API 存取與結構化輸出，適用於機器人與其他實體世界工作流程，也支援指向、計數、OCR 與文件擷取等影像推理任務。

大型語言模型

AI影像辨識

AI代理開發

訪問網站

概述

Perceptron Mk1 是來自 Perceptron 的閉源模型，專為影片理解與具身推理而打造。公司將其描述為一層面向實體世界的智慧，適用於感知、時序與空間定位比純文字生成更重要的工作負載。

此模型定位於實體 AI 與機器人工作流程，支援影像、影片與具身推理，以及 point、box、polygon、track、clips、HTML、JSON 和 Markdown 等結構化輸出。來源頁面也展示了透過 API 進行偵測、指向、計數、OCR、captioning 與可提示式視覺分析的開發者範例。

特色

影片與具身推理

Mk1 專為影片理解與具身推理而設計，著重於連續串流中的時間推理，而非孤立的單一影像。

具思考軌跡的時間推理

模型可對時間進行推理、產生事件的結構化拆解，並可在不需要時選擇關閉推理。

長影片的時間定位

它可在 32K token 的 context window 中，以最高 2 FPS 的動態幀率分析影片，並針對特定時刻回傳結構化時間碼。

情境內多模態匹配

網站說明可使用一張參考影像或影片，在新媒體中尋找相符實例，也能在不微調或不使用標註資料集的情況下比較兩段媒體。

進階影像理解

Mk1 支援指向、計數、OCR、文件擷取，以及其他影像推理任務，包括雜亂文字、類比儀表與保留結構的表格。

機器人工作流程的結構化輸出

模型訓練可輸出 point、box、polygon、track 與 clip 等空間原語，能直接供下游系統使用。

使用案例

機器人資料準備
使用 Mk1 解讀遠端操作影片、標註子任務邊界、擷取成功或失敗訊號，並將原始 episode 轉為下游 policy 訓練所需的監督式資料。
機器人執行階段輔助
在推論期間套用模型以回傳抓取可供性、約束檢查、關係目標，以及用於操作或導航系統的跨攝影機追蹤。
工業檢測與安全
在工廠、倉儲或工地影像與影片上執行模型，以偵測缺陷、標記安全問題，並在巡檢期間讀取儀表。
媒體搜尋與剪輯
運用時間定位與結構化輸出來剪輯體育時刻、搜尋電影與電視資料庫，或大規模審核 AI 生成內容。
地理空間監測
分析衛星、無人機與固定攝影機影像，用於基礎設施監測、施工進度、植被侵入或災後評估。

Pros and Cons

Pros

專為影片理解與具身推理打造，而不僅是靜態影像任務。
支援可直接接入機器人與自動化流程的結構化輸出，包括空間原語與文件格式。
可透過單次模型呼叫處理多種實用視覺工作流程，包括匹配、計數、OCR 與比較。
具備時間推理與影片定位功能，適合長時間或連續的視覺串流。

Cons

來源頁面在彙整文字中未公開完整價格、方案限制或授權條款。
該模型被呈現為閉源，因此不是 open-weight 選項。

FAQ

Perceptron Mk1 是為什麼用途設計的？

Perceptron Mk1 是為影片理解與具身推理打造的，並額外支援影像推理與結構化文件擷取。網站將其定位於實體世界應用，而非通用聊天。

它可以處理哪些任務？

開發者頁面展示了 Python 風格的範例，涵蓋 focus/zoom 與 crop、對話式指向、in-context learning、物件偵測、計數、OCR 與 captioning。示範也顯示可對單一或多個類別的影像進行分割的模式。

它如何處理影片與結構化輸出？

網站表示 Mk1 會在 32K token 的 context window 內，以最高 2 FPS 分析影片，並可回傳結構化時間碼、clips，以及 point、box、polygon、track 和 clip 等其他空間輸出。

它是開源的，還是可透過商業授權取得？

首頁表示 Mk1 是閉源的模型系列版本。網站也說開發者可透過 API 使用該模型，或聯絡取得權重的商業授權。

Perceptron 的價格是多少？

價格頁面在所收集的文字中未顯示已公開的方案細節，因此無法從此處使用的來源頁面取得確切價格、方案層級與限制。

Quick Facts

產品: Perceptron Mk1
類別: AI 開發工具
主要用途: 影片理解與具身推理
平台: 以 API 為基礎的模型
公司: Perceptron Inc.
來源網域: perceptron.inc

Perceptron Mk1 替代品

AakarDev AI

AakarDev AI 讓團隊透過單一儀表板管理 AI 供應商權限、專案設定、日誌與分析，支援 BYOK 工作流程，並可連接 OpenAI、Google Gemini、Anthropic、Groq、Mistral AI、Perplexity AI。

Arduino VENTUNO Q

Arduino VENTUNO Q 是一款適用於 AI 與機器人應用的邊緣 AI 電腦，結合 AI 推論與可預測控制，並可搭配 Arduino App Lab 使用。

Benchspan

Benchspan 是一個 AI agent 安全平台，可即時發現 agents、阻擋 prompt injection 與資料外洩，並支援上線前紅隊測試，適合在 production 環境運行 agents 的團隊，並提供 Python 與 TypeScript SDKs。

Edgee

Edgee 是專為程式設計代理與 LLM 應用打造的 AI gateway，可壓縮 token 流量、跨模型路由請求，並提供可觀測性與團隊控管，協助降低成本、維持工作不中斷。

CreateOS Sandbox

CreateOS Sandbox 是以 Firecracker micro-VM 執行程式與 agent 工作負載的隔離運算環境，支援私有網路、SDK、CLI 與 MCP 程式化控制。

Codex Plugins

Codex Plugins 將可重用技能、應用程式整合與 MCP 伺服器打包成可安裝到 Codex app 或在 Codex CLI 使用的工作流程，方便延伸 Codex 的連線服務任務、重複使用指令與團隊共享流程。