UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1 は、動画理解・画像推論・身体性推論に対応したクローズドソースのマルチモーダルモデルです。ロボティクスや物理世界のワークフロー向けに、視覚データから構造化出力を生成します。

Perceptron Mk1

Perceptron Mk1とは?

Perceptron Mk1 は、動画理解と身体性推論向けに設計された、Perceptron のクローズドソースモデルです。画像や動画を解析し、時間をまたいで推論し、タイムコード、クリップ、ポイント、ボックス、ポリゴン、トラック、テキストなどの構造化出力を生成することを目的としています。

このモデルは、静止フレームではなく連続的な視覚ストリームを処理できるため、フィジカルAIやロボティクスのワークフロー向けに位置づけられています。ソースによれば、画像・動画・身体性推論タスクで先端性能に匹敵しつつ、同等クラスの一部製品より低価格です。

主な機能

  • 動画に対する時系列推論: Mk1 は時間をまたぐイベントを調べ、何がいつ起きたかを構造化して返せます。スポーツ分析や調理映像のような連続タスクに有用です。
  • 動的な動画グラウンディング: 32K トークンのコンテキストウィンドウ内で最大 2 FPS まで動画を解析し、特定の瞬間に対応する実用的なタイムコードを返せます。
  • マルチモーダルなインコンテキスト照合: 参照用の画像または動画を与えて、新しい画像や動画の中から一致するインスタンスを見つけるよう指示できます。ファインチューニングやラベル付き学習データは不要です。
  • メディア間比較: 2 つのメディアを与えると、Mk1 は並列表現の比較を生成でき、レビューや検査のワークフローを支援します。
  • 高度な画像推論: ポインティング、カウント、OCR、計器読み取り、構造化文書抽出をサポートし、複雑なレイアウト、表、手書き、多言語コンテンツにも対応します。
  • 構造化された空間出力: Mk1 は point、box、polygon、track、clip のプリミティブを第一級の出力として返せるため、結果を下流のロボティクスやビジョンシステムへ渡しやすくなります。

Perceptron Mk1 の使い方

一般的なワークフローは、画像、動画、または複数のメディア入力を、タスクを指定するプロンプトとともに送信することから始まります。ユーザーは、物体の位置特定、カウント、OCR、イベント検出、タイムコード抽出、比較、構造化文書変換などを依頼できます。

ロボティクスやビジュアルパイプライン用途では、遠隔操作映像へのラベル付け、タスク境界の特定、成功・失敗の検出、下流システムが直接利用できる注釈の生成に使えます。

ユースケース

  • 動画レビューとイベント抽出: 長時間録画を解析し、把持の試行、補充イベント、その他のタスクマイルストーンなど、特定の動作がいつ発生したかを特定します。
  • ロボティクスデータのアノテーション: 遠隔操作映像を教師ラベル、動作条件付き注釈、品質スコア、サブタスク境界に変換し、下流モデルの学習に使います。
  • ビジュアル検索と資産追跡: 参照画像または動画を使って、新しい画像セットや動画ストリームから一致するアイテムを見つけます。
  • 産業検査と読取作業: 稼働環境で、計器、時計、ダッシュボード、旧式の制御盤、判読しづらい文字を読み取ります。
  • 文書の構造化: 複雑な文書を HTML、JSON、Markdown に変換し、レイアウト、表、階層、手書き注記を保持します。

FAQ

Mk1 は照合や検出タスクのためにファインチューニングが必要ですか? いいえ。ソースによれば、ラベル付きデータセットや学習パイプラインなしで、単一の参照画像または動画からインコンテキスト照合を実行できます。

どのような出力を生成できますか? タスクに応じて、テキストのほか、point、box、polygon、track、clip、タイムコードなどの構造化された空間出力を返せます。

Mk1 は動画専用ですか? いいえ。ソースでは、画像推論に加えて動画および身体性推論にも強いと説明されています。

長い動画にも対応できますか? 32K トークンのコンテキストウィンドウ内で最大 2 FPS の動的フレームレート解析をサポートしており、より長尺の動画解析に対応していることを示しますが、ソースには動画のハードな最大長は記載されていません。

代替案

  • 一般的な最先端マルチモーダルモデル: ソースでは、Mk1 を、画像および動画推論に対応する Google、OpenAI、Anthropic、Alibaba のモデルと比較していますが、出力形式や価格は異なる場合があります。
  • オープンソースの vision-language モデル: チームがオープンウェイトやローカル制御を重視する場合はこちらが適していることがありますが、ソースでは Mk1 を、性能と構造化出力に重点を置いたクローズドソースの選択肢として位置づけています。
  • 個別コンポーネントに分かれたロボティクス認識パイプライン: 一部のチームは、検出、OCR、トラッキング、アノテーションに別々のモデルを使いますが、Mk1 はこれらの工程を 1 回のモデル呼び出しにまとめることを目指しています。
  • 従来の文書 OCR/抽出ツール: これらはテキスト中心の文書ではよく機能しますが、Mk1 は、より複雑なレイアウト、手書き文字、マルチモーダル推論を同じワークフローで扱えると説明されています。
Perceptron Mk1 | UStack