Perceptron Mk1

Perceptron Mk1は、動画理解と身体性推論向けのクローズドソースvision model。APIで利用でき、ロボティクスや物理世界のワークフローに対応。指差し、カウント、OCR、文書抽出などの画像推論も可能です。

概要

Perceptron Mk1は、動画理解と身体性推論向けに構築されたPerceptronのクローズドソースモデルです。同社はこれを、物理世界向けの知能レイヤーとして説明しており、テキストのみの生成よりも、知覚、タイミング、空間的グラウンディングが重要なワークロードを対象としています。

このモデルは、画像、動画、身体性推論をサポートする物理AIおよびロボティクスのワークフロー向けに位置づけられており、point、box、polygon、track、clipに加えて、HTML、JSON、Markdownなどの構造化出力にも対応します。ソースページには、APIを通じた検出、指差し、カウント、OCR、キャプション生成、プロンプト可能な視覚解析の開発者向け例も掲載されています。

機能

動画と身体性推論

Mk1は、静止画像タスクだけでなく、動画理解と身体性推論に特化して設計されていると説明されています。

思考トレース付きの時系列推論

時間の流れに沿って推論し、イベントの構造化された分解を生成でき、必要ない場合は推論をオフにすることもできます。

長尺動画での時系列グラウンディング

最大2 FPSの動的フレームレートで32Kトークンのコンテキストウィンドウ内の動画を解析し、特定の瞬間に対して構造化されたタイムコードを返せます。

インコンテキストのマルチモーダル照合

1つの参照画像または動画を使って新しいメディア内の一致インスタンスを見つけたり、微調整やラベル付きデータセットなしで2つのメディアを比較したりできるとサイトは述べています。

高度な画像理解

Mk1は、文字が崩れたテキスト、アナログゲージ、構造を保持した表などを含む、指差し、カウント、OCR、文書抽出、その他の画像推論タスクをサポートします。

ロボティクスワークフロー向けの構造化出力

このモデルは、point、box、polygon、track、clipといった空間プリミティブを出力するよう学習されており、下流システムで直接利用できます。

ユースケース

ロボティクス用データ準備
Mk1を使ってテレオペレーション映像を解釈し、サブタスクの境界にラベルを付け、成功や失敗のシグナルを抽出し、生のエピソードを下流の方策学習向けの教師ありデータに変換します。
ロボティクス実行時支援
推論時にモデルを適用し、把持のアフォーダンス、制約チェック、関係ターゲット、操作やナビゲーションシステム向けのクロスカメラ追跡を返します。
産業検査と安全確認
工場、倉庫、建設現場の画像や動画にモデルを適用し、欠陥検出、安全上の問題の検出、点検時の計器読み取りを行います。
メディア検索とクリッピング
時系列グラウンディングと構造化出力を使って、スポーツの名場面を切り出したり、映画やテレビのライブラリを検索したり、生成AIコンテンツを大規模にモデレートしたりできます。
地理空間モニタリング
衛星、ドローン、固定カメラの映像を解析し、インフラ監視、建設進捗、植生の侵入、災害後評価に役立てます。

Pros and Cons

Pros

静止画像タスクだけでなく、動画理解と身体性推論に特化して構築されています。
空間プリミティブや文書形式を含む、ロボティクスや自動化パイプラインに直接つなげられる構造化出力をサポートします。
照合、カウント、OCR、比較を含む複数の実用的な視覚ワークフローを、1回のモデル呼び出しで処理できます。
長い連続した視覚ストリームに有用な時系列推論と動画グラウンディング機能を備えています。

Cons

収集したテキストには、完全な価格、プラン上限、ライセンス条件が公開されていません。
このモデルはクローズドソースとして提示されており、オープンウェイトの選択肢ではありません。

FAQ

Perceptron Mk1は何のために設計されていますか？

Perceptron Mk1は、動画理解と身体性推論向けに構築されており、画像推論と構造化された文書抽出もサポートします。サイトでは、一般的なチャットよりも物理世界の用途向けに位置づけられています。

どのようなタスクを処理できますか？

開発者ページには、フォーカス/ズームとクロップ、会話型の指差し、インコンテキスト学習、物体検出、カウント、OCR、キャプション生成などのPython風の例が掲載されています。デモでは、画像内の1つまたは複数クラスをセグメント化するモードも示されています。

動画や構造化出力にはどのように対応しますか？

サイトによると、Mk1は32Kトークンのコンテキストウィンドウ内で最大2 FPSで動画を解析し、構造化されたタイムコード、クリップ、さらにポイント、ボックス、ポリゴン、トラック、クリップなどの空間的出力を返せます。

オープンソースですか、それとも商用ライセンスで利用できますか？

ホームページでは、Mk1はクローズドソースのモデルファミリーとして提供されていると説明されています。また、開発者はAPI経由でモデルを利用でき、重みの商用ライセンスについて問い合わせることもできると記載されています。

Perceptronの料金はいくらですか？

価格ページには、収集したテキスト上で公開されたプラン詳細が表示されていないため、正確な価格、プラン区分、制限はここで使用したソースページからは確認できません。

Quick Facts

Product: Perceptron Mk1
Category: AI開発者向けツール
Primary use: 動画理解と身体性推論
Platform: APIベースのモデル
Company: Perceptron Inc.
Source domain: perceptron.inc

Perceptron Mk1の代替品

AakarDev AI

AakarDev AIは、AIプロバイダーのアクセス管理、プロジェクト別設定、ログ、分析を1つのダッシュボードで管理できるチーム向けツールです。BYOKに対応し、OpenAI、Google Gemini、Anthropic、Groq、Mistral AI、Perplexity AIをサポートします。

Arduino VENTUNO Q

Arduino VENTUNO Qは、AI・ロボティクス向けのエッジAIコンピューターです。AI推論と決定論的制御を1枚に集約し、Arduino App Labに対応します。

Benchspan

Benchspanは、AIエージェントの検出、プロンプトインジェクションとデータ流出のリアルタイム防御、リリース前のレッドチーミングを備えたAI agent security platformです。PythonとTypeScript SDKsに対応。

Edgee

Edgeeは、コーディングエージェントとLLM対応アプリ向けのAI gatewayです。トークン通信を圧縮し、モデル間でリクエストを振り分け、可観測性とチーム管理でコスト削減とセッション継続を支援します。

CreateOS Sandbox

CreateOS Sandboxは、FirecrackerマイクロVM上でコードやエージェントのワークロードを実行できる分離型コンピュート環境です。SDK、CLI、MCPで制御可能。

Codex Plugins

Codex Plugins は、再利用可能なスキル、アプリ連携、MCPサーバーを Codex app や Codex CLI で使えるワークフローにまとめます。接続サービスの作業や共有チームワークフローを拡張できます。