NVIDIA Nemotron 3 Ultra icon

NVIDIA Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultraは、長時間のエージェントワークフロー向けに設計されたオープン550BパラメータMixture-of-Expertsモデルです。推論、文脈保持、効率的なツール利用を多ターンで求める開発者向けに、オープンウェイトとfine-tuning支援を提供します。

NVIDIA Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultraとは?

NVIDIA Nemotron 3 Ultraは、55Bのアクティブパラメータを持つオープンな550BパラメータMixture-of-Expertsモデルで、長時間のエージェントワークフロー向けに設計されています。多段のやり取りにわたって、持続的な推論、ツール利用、文脈保持、効率的な実行が求められるエージェントオーケストレーション用途に位置づけられています。

このモデルは、エージェントシステムを複数の作業層に分けて扱いたい開発者を支援することを意図しています。複雑な計画には最先端の推論を、また大規模な呼び出し、検証、ツール利用にはより効率的な実行を組み合わせる形です。NVIDIAによると、Nemotron 3 Ultraは長文コンテキスト処理のためのアーキテクチャ変更、高速な推論、オープンな学習レシピを組み合わせており、チームがドメイン固有のニーズに合わせて適応・fine-tuningしやすくしています。

主な機能

  • 550BパラメータのMixture-of-Expertsアーキテクチャと55Bのアクティブパラメータにより、各トークンで一部のパラメータのみを使いながら大きな容量を実現。
  • エージェントオーケストレーション向けに構築されており、長いワークフローでの計画、多段にわたる推論、繰り返しのツール呼び出しに対応。
  • ハイブリッドなMamba-Transformer層により、より効率的な長文コンテキスト処理を実現。長い会話履歴やタスク履歴を保持・活用する必要があるエージェントに有用。
  • クロスアーキテクチャGPUデプロイ向けのNVFP4量子化をサポートし、NVIDIAは同クラスの他のオープンモデルと比べて最大5倍のスループット向上を説明。
  • LatentMoEの専門家ルーティングとマルチトークン予測により、多段タスクでの生成効率を向上。
  • 10以上のドメイン特化教師モデルからのフィードバックを使うMulti-Teacher On-Policy Distillationにより、特化と継続的改善を支援。
  • オープンウェイト、オープンレシピ、そして導入・評価・fine-tuningをしやすくするためのライセンス。

NVIDIA Nemotron 3 Ultraの使い方

チームは通常、Nemotron 3 Ultraをエージェントシステム内の推論レイヤーとして使用します。特に、長期的な計画や情報の慎重な統合が必要なタスクで有効です。実運用では、小型で効率的なモデルと組み合わせて、定型的なツール呼び出し、検索ステップ、検証、その他の大量処理を担当させます。

導入にあたっては、まず自動化したいワークフローで評価し、そのユースケースに特化した振る舞いが必要であればfine-tuningやドメイン固有の学習で適応させます。NVIDIAがオープンウェイトとレシピを重視しているため、このモデルは自社インフラやエージェントパイプライン内で検査、適応、デプロイしたいチームを想定しています。

ユースケース

  • 長い開発セッションをまたいでアーキテクチャ上の判断を保持しなければならないコーディングエージェントのオーケストレーション。
  • 多数の研究ソースからの相反する証拠を、1つの推論の流れや回答に統合。
  • チップ設計要件など、多数の依存関係を持つ複雑な制約の検証。
  • 繰り返しの計画、ツール利用、検証によってトークンコストとレイテンシが増えやすい、長期的な企業ワークフローの実行。
  • 開発者が透明性のある学習レシピを使ってオープンモデルをfine-tuningしたい、ドメイン特化のエージェント挙動の支援。

FAQ

Nemotron 3 Ultraはチャットボットモデルですか、それともエージェントモデルですか?
単純な1ターンのチャットボットではなく、長時間のエージェントワークフロー向けのオープンモデルとして提示されています。

小型の効率的なモデルとの違いは何ですか?
ソースでは、より難しい処理のための推論・オーケストレーション層として位置づけられており、小型モデルは定型的な実行、検証、ツール呼び出しを担当できます。

長文コンテキスト利用への対応は説明されていますか?
はい。記事ではハイブリッドなMamba-Transformer層と長文コンテキストのベンチマーク結果が強調されており、長いワークフロー処理への注力が示されています。

自社ドメイン向けに適応できますか?
ソースによれば、導入とfine-tuningを支援するためのオープンレシピ、ウェイト、ライセンスが付属しています。

どのようなデプロイ性能の主張がありますか?
NVIDIAは、同クラスの他のオープンモデルと比べて最大5倍のスループットを実現し、NVFP4によってクロスアーキテクチャGPUデプロイが可能になると述べています。

代替候補

  • 他の大規模オープンMixture-of-Experts推論モデル: 主なニーズが高容量の推論とオープンなモデルアクセスである場合に近い選択肢ですが、個別の学習手法やスループットは異なります。
  • ツール利用と検証向けのより小さな高効率モデル: 大量実行のタスクにより適していますが、難しい推論のための主要なオーケストレーション層としては位置づけられていません。
  • プロプライエタリな最先端推論モデル: 強力な計画立案や回答品質を備える場合がありますが、weights、recipes、fine-tuningのワークフローにおける同等のオープンさは提供されないことがあります。
  • 汎用の長文コンテキスト対応言語モデル: 長い入力を扱えますが、エージェントのオーケストレーション、MoEルーティング、ここで述べるスループット特性に特化して最適化されているわけではありません。