UStackUStack
Reka Edge icon

Reka Edge

Reka Edgeはローカル展開のマルチモーダルAIモデル。リアルタイム映像解析で物体バウンディングボックス等を生成し、ロボット制御に連携。

Reka Edge

Reka Edgeとは?

Reka Edgeは、ローカル展開可能なマルチモーダルAIモデルおよびプラットフォームで、リアルタイム視覚理解とエージェントオーケストレーションに特化しています。エッジハードウェア(NVIDIA Jetsonクラスを含む)で動作するよう設計されており、低遅延でビデオストリームを処理し、物体バウンディングボックスやコンテンツハイライトなどの構造化出力を生成します。

この製品は、速度と信頼性が重要な本番環境向けで、特にロボティクス、リアルタイム監視、物理エージェントシステムなどの、世界との継続的な相互作用が必要なシナリオに位置づけられています。

主な機能

  • ローカルエッジ展開(ローカル実行 + APIアクセス):クラウド推論に依存せず、リアルタイムワークフローをサポートします。
  • リアルタイムビデオ解析:ビデオストリームから直接、物体検出シーン理解などのタスクを実行します。
  • バウンディングボックスによる精密な空間グラウンディング:ツール、対象物体、障害物に対してバウンディングボックスを生成し、空間的意思決定を支援(例:「10mmレンチ」の特定)。
  • メディア/コンテンツハイライト生成:視覚メディアやコンテンツからハイライトを生成します。
  • ツール使用フレームワークによるマルチモーダルエージェントオーケストレーション:視覚コンテキストをハードウェア/ソフトウェア操作にマッピングし、多段階アクションを調整(例:ロボットハードウェアAPIを呼び出して制御)。

Reka Edgeの使い方

  1. 実行方法を選択:アプリケーション環境に応じて、モデルをローカル展開するかAPI経由で呼び出します。
  2. ビデオ入力を提供:モデルにビデオデータをストリーミングし、継続的な視覚処理を行います。
  3. 空間グラウンディング出力を要求:シーン内の物体を参照したプロンプトで、ツール/対象/障害物のバウンディングボックスを取得します。
  4. オーケストレーションを制御ロジックに接続:エッジエージェント(例:ロボティクス)使用時、モデルのツール使用出力をハードウェアAPIにルーティングし、多段階タスクを実行します。
  5. 本番動作のための反復:対象環境(エッジコンピュートなど)で遅延と出力形式を検証します。

ユースケース

  • ロボティクス:ツール位置特定と把持計画 ロボットのステレオカメラが高フレームレートのビデオをエッジコンピュートにストリーミング。Reka Edgeが要求ツールのバウンディングボックスを抽出、多段階ツール使用アクションで操作を支援。

  • ロボティクス:雑然とした作業空間でのシーン理解 非構造化環境で、モデルが関連物体と障害物をリアルタイムで特定し、ナビゲーションと相互作用のための高速・座標駆動型意思決定を可能に。

  • リアルタイム監視:物体検出とシーン理解 エッジハードウェアに展開し、ビデオフィードを継続的に解釈、ダウンストリーム監視ワークフローに適した構造化視覚理解出力を生成。

  • 自動車(車載):プライバシー優先のキャビン動画理解 車両コンピュート上でオフライン動作し、複数カメラフィード(ダッシュボード/ステアリングコラム/後席モニター)を使用して、会話型・コンテキスト認識キャビン相互作用を支援。

  • 自動車(車載):会話型時系列クエリとエージェント制御 Reka Edgeがフレームシーケンスを評価し、展開するイベントを解釈(例:ドライバーが店舗を指して「この店は何時に閉まる?」)、タスクをルーティングし、関連アラートやインフォテインメントアクションをトリガー。

FAQ

Q: Reka Edgeはクラウド向けかエッジ展開向けですか? A: ページではエッジ優先の使用を説明。ローカル実行とエッジコンピュートでの映像処理によりクラウド遅延を回避。

Q: Reka Edgeはどのような入力に対応しますか? A: 説明されたワークフローは映像ストリームに焦点を当て、物体検出、シーン理解、メディア/コンテンツハイライト生成に対応。ロボット/自動車シナリオではステレオカメラや複数車両カメラからのデータを処理。

Q: 空間タスクでどのような出力を生成しますか? A: 物理エージェントワークフローでは、ツール、対象物体、障害物に対する精密なバウンディングボックスを抽出。会話型ポインティング(例: 視界内の特定ツールの識別)もサポート。

Q: 視覚をアクションにどう繋げますか? A: ページではツール使用フレームワークを説明。マルチモーダルエージェントオーケストレーションにより、ハードウェアAPI(ロボット制御)を呼び出し、または関連車両システム(ADASアラート、インフォテインメントAPI)にタスクをルーティング。

Q: ページでモデルサイズやアーキテクチャの詳細は記載されていますか? A: はい。Reka Edge 2は660MパラメータのConvNeXT V2ビジョンエンコーダ6Bパラメータの言語バックボーン合計7Bパラメータを使用と記載。

代替案

  • クラウドホストのマルチモーダルVLM(APIベース) 強力な視覚機能を提供するが、通常ネットワーク遅延が発生し、サブ秒・常時オンエッジ制御ループには不向き。

  • 専用検出器+トラッカーを使ったエッジ最適化ビジョンパイプライン 統合マルチモーダルモデルではなく、専用物体検出器とトラッキングシステムを組み合わせる場合が多い。会話型グラウンディングとエージェントオーケストレーションを実現するにはカスタムエンジニアリングが必要。

  • 他のエッジ対応ビジョン言語モデルを基盤としたローカルマルチモーダルエージェントフレームワーク デバイス上での会話型ビジョンエージェントが必要なら、他のローカル実行可能マルチモーダルモデルスタックを検討可能。違いはターゲットランタイムでのグラウンディング(バウンディングボックス)とツール使用オーケストレーションの扱い。

  • 非エージェント型ビデオ解析プラットフォーム 物体やイベントを検出可能だが、Reka Edgeのエージェントオーケストレーションワークフローで説明されたツール使用や多段階アクションルーティングは提供しない場合が多い。

Reka Edge | UStack