什麼是 Perceptron Mk1?
Perceptron Mk1 是 Perceptron 推出的封閉式模型,專為影片理解與具身推理而設計。它可用於分析影像與影片、跨時間推理,並產生結構化輸出,例如時間碼、剪輯片段、點、框、多邊形、軌跡與文字。
此模型定位於實體 AI 與機器人工作流程,可處理連續的視覺串流,而非孤立影格。根據來源,它在影像、影片與具身推理任務上可達到前沿效能,同時定價低於部分可比的前沿產品。
主要特色
- 影片的時間推理:Mk1 可檢視跨時間的事件,並回傳發生了什麼、何時發生的結構化拆解,適合運動分析或料理影片等序列任務。
- 動態影片定位:可在 32K token 的上下文視窗內以最高 2 FPS 分析影片,並回傳特定時刻的可操作時間碼。
- 多模態上下文匹配:使用者可提供參考影像或影片,讓模型在新的影像與影片中找出匹配實例,無需微調或標註訓練資料。
- 跨媒體比較:給定兩段媒體內容時,Mk1 可產生並排比較,支援審查與檢查流程。
- 進階影像推理:模型支援指向、計數、OCR、儀表讀值與結構化文件擷取,包括複雜版面、表格、手寫內容與多語言內容。
- 結構化空間輸出:Mk1 可將點、框、多邊形、軌跡與剪輯片段作為第一級輸出,讓結果更容易接到下游機器人或視覺系統。
如何使用 Perceptron Mk1
典型流程是先提交影像、影片或多個媒體輸入,並搭配說明任務的提示詞。使用者可要求物件定位、計數、OCR、事件偵測、時間碼擷取、比較,或結構化文件轉換。
用於機器人與視覺管線時,模型可用來標註遠端操作影片、辨識任務邊界、偵測成功或失敗,並產生可供下游系統直接使用的註解。
使用情境
- 影片審查與事件擷取:分析長時間錄影,找出特定動作何時發生,例如抓取嘗試、補貨事件或其他任務里程碑。
- 機器人資料標註:將遠端操作影片轉成監督式標籤、動作條件註解、品質分數或子任務邊界,用於訓練下游模型。
- 視覺搜尋與資產追蹤:使用參考影像或影片,從新的影像集或影片串流中找出匹配項目。
- 工業檢測與讀值任務:在作業環境中讀取儀表、時鐘、控制面板、老舊控制台與雜亂文字。
- 文件結構化:將複雜文件轉換為 HTML、JSON 或 Markdown,同時保留版面、表格、層級與手寫註記。
FAQ
Mk1 進行匹配或偵測任務時需要微調嗎?
不需要。來源指出,它可在沒有微調、標註資料集或訓練流程的情況下,僅憑單一參考影像或影片進行上下文匹配。
它可以產生哪些類型的輸出?
它可回傳文字,以及點、框、多邊形、軌跡、剪輯片段與時間碼等結構化空間輸出,視任務而定。
Mk1 只適用於影片嗎?
不是。來源描述它在影像推理,以及影片與具身推理方面都很強。
它能處理長影片嗎?
它支援在 32K token 的上下文視窗內以最高 2 FPS 進行動態影格率分析,表示可支援較長篇幅的影片分析,但來源未說明硬性最長影片限制。
替代方案
- 通用前沿多模態模型:來源將 Mk1 與來自 Google、OpenAI、Anthropic 和 Alibaba 的模型相比,這些模型也能處理影像與影片推理,但其輸出格式與定價可能不同。
- 開源視覺語言模型:當團隊希望使用開放權重或本地控制時,這些模型可能更合適;但來源將 Mk1 定位為一個著重效能與結構化輸出的封閉式選項。
- 具備獨立元件的機器人感知流程:有些團隊可能會分別使用偵測、OCR、追蹤與標註模型,而 Mk1 則旨在將這些步驟整合到一次模型呼叫中。
- 傳統文件 OCR/擷取工具:這些工具對文字密集型文件表現不錯,但 Mk1 被描述為能在同一工作流程中處理更複雜的版面、手寫內容與多模態推理。
替代品
AakarDev AI
AakarDev AI 是一個強大的平台,通過無縫的向量資料庫整合簡化 AI 應用程式的開發,實現快速部署和可擴展性。
Arduino VENTUNO Q
Arduino VENTUNO Q 邊緣 AI 電腦,結合 AI 推論硬體與微控制器,支援機器人即時控制;透過 Arduino App Lab 進行嵌入式、Linux 與邊緣 AI 工作流程。
BenchSpan
BenchSpan 以並行方式執行 AI agent 基準測試,記錄分數與失敗,並以 commit 標記可重現結果,降低失敗重跑的 token 浪費。
Edgee
Edgee 是邊緣原生 AI 閘道,可在送達 LLM 供應商前先壓縮提示,透過單一 OpenAI 相容 API 將請求路由到 200+ 模型,降低 token 成本。
Codex Plugins
使用 Codex Plugins 將技能、應用程式整合與 MCP 伺服器打包成可重複使用的工作流程,讓 Codex 存取 Gmail、Google Drive、Slack 等工具。
Wallie
Wallie 是開源 AI streamer 框架,結合即時視覺、可設定人格、聊天室互動、文字轉語音與虛擬角色輸出,適合 Twitch、YouTube、Kick 的 VTuber 風格直播。