UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1 是一款封閉式多模態模型,適用於影片理解、影像推理與具身推理,專為機器人與需要從視覺資料產生結構化輸出的實體世界工作流程而設計。

Perceptron Mk1

什麼是 Perceptron Mk1?

Perceptron Mk1 是 Perceptron 推出的封閉式模型,專為影片理解與具身推理而設計。它可用於分析影像與影片、跨時間推理,並產生結構化輸出,例如時間碼、剪輯片段、點、框、多邊形、軌跡與文字。

此模型定位於實體 AI 與機器人工作流程,可處理連續的視覺串流,而非孤立影格。根據來源,它在影像、影片與具身推理任務上可達到前沿效能,同時定價低於部分可比的前沿產品。

主要特色

  • 影片的時間推理:Mk1 可檢視跨時間的事件,並回傳發生了什麼、何時發生的結構化拆解,適合運動分析或料理影片等序列任務。
  • 動態影片定位:可在 32K token 的上下文視窗內以最高 2 FPS 分析影片,並回傳特定時刻的可操作時間碼。
  • 多模態上下文匹配:使用者可提供參考影像或影片,讓模型在新的影像與影片中找出匹配實例,無需微調或標註訓練資料。
  • 跨媒體比較:給定兩段媒體內容時,Mk1 可產生並排比較,支援審查與檢查流程。
  • 進階影像推理:模型支援指向、計數、OCR、儀表讀值與結構化文件擷取,包括複雜版面、表格、手寫內容與多語言內容。
  • 結構化空間輸出:Mk1 可將點、框、多邊形、軌跡與剪輯片段作為第一級輸出,讓結果更容易接到下游機器人或視覺系統。

如何使用 Perceptron Mk1

典型流程是先提交影像、影片或多個媒體輸入,並搭配說明任務的提示詞。使用者可要求物件定位、計數、OCR、事件偵測、時間碼擷取、比較,或結構化文件轉換。

用於機器人與視覺管線時,模型可用來標註遠端操作影片、辨識任務邊界、偵測成功或失敗,並產生可供下游系統直接使用的註解。

使用情境

  • 影片審查與事件擷取:分析長時間錄影,找出特定動作何時發生,例如抓取嘗試、補貨事件或其他任務里程碑。
  • 機器人資料標註:將遠端操作影片轉成監督式標籤、動作條件註解、品質分數或子任務邊界,用於訓練下游模型。
  • 視覺搜尋與資產追蹤:使用參考影像或影片,從新的影像集或影片串流中找出匹配項目。
  • 工業檢測與讀值任務:在作業環境中讀取儀表、時鐘、控制面板、老舊控制台與雜亂文字。
  • 文件結構化:將複雜文件轉換為 HTML、JSON 或 Markdown,同時保留版面、表格、層級與手寫註記。

FAQ

Mk1 進行匹配或偵測任務時需要微調嗎?
不需要。來源指出,它可在沒有微調、標註資料集或訓練流程的情況下,僅憑單一參考影像或影片進行上下文匹配。

它可以產生哪些類型的輸出?
它可回傳文字,以及點、框、多邊形、軌跡、剪輯片段與時間碼等結構化空間輸出,視任務而定。

Mk1 只適用於影片嗎?
不是。來源描述它在影像推理,以及影片與具身推理方面都很強。

它能處理長影片嗎?
它支援在 32K token 的上下文視窗內以最高 2 FPS 進行動態影格率分析,表示可支援較長篇幅的影片分析,但來源未說明硬性最長影片限制。

替代方案

  • 通用前沿多模態模型:來源將 Mk1 與來自 Google、OpenAI、Anthropic 和 Alibaba 的模型相比,這些模型也能處理影像與影片推理,但其輸出格式與定價可能不同。
  • 開源視覺語言模型:當團隊希望使用開放權重或本地控制時,這些模型可能更合適;但來源將 Mk1 定位為一個著重效能與結構化輸出的封閉式選項。
  • 具備獨立元件的機器人感知流程:有些團隊可能會分別使用偵測、OCR、追蹤與標註模型,而 Mk1 則旨在將這些步驟整合到一次模型呼叫中。
  • 傳統文件 OCR/擷取工具:這些工具對文字密集型文件表現不錯,但 Mk1 被描述為能在同一工作流程中處理更複雜的版面、手寫內容與多模態推理。
Perceptron Mk1 | UStack