NVIDIA Nemotron 3 Ultra icon

NVIDIA Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultra est un modèle open source Mixture-of-Experts de 550B paramètres pour les workflows d’agent longs, avec raisonnement, mémoire et usage efficace des outils.

NVIDIA Nemotron 3 Ultra

Qu’est-ce que NVIDIA Nemotron 3 Ultra ?

NVIDIA Nemotron 3 Ultra est un modèle open source Mixture-of-Experts de 550B paramètres avec 55B paramètres actifs, conçu pour les workflows d’agent longs. Il est destiné aux tâches d’orchestration d’agents qui exigent un raisonnement soutenu, l’usage d’outils, la conservation du contexte et une exécution efficace sur de მრturns.

Le modèle est conçu pour aider les développeurs à répartir les systèmes d’agents entre différentes couches de travail : raisonnement de pointe pour la planification complexe et exécution plus efficace pour les appels à fort volume, la validation et l’usage d’outils. NVIDIA indique que Nemotron 3 Ultra combine des changements architecturaux pour la gestion des longs contextes, une inférence plus rapide et des recettes d’entraînement ouvertes afin que les équipes puissent l’adapter et le fine-tuner pour des besoins propres à leur domaine.

Fonctionnalités clés

  • Architecture Mixture-of-Experts de 550B paramètres avec 55B paramètres actifs, offrant au modèle une grande capacité tout en n’utilisant qu’un sous-ensemble de paramètres par token.
  • Conçu pour l’orchestration d’agents, y compris la planification, le raisonnement sur de longs workflows et la gestion d’appels d’outils répétés sur plusieurs tours.
  • Couches hybrides Mamba-Transformer pour un traitement plus efficace des longs contextes, ce qui est pertinent pour les agents qui doivent conserver et exploiter un historique de conversation ou de tâche étendu.
  • Prise en charge de la quantization NVFP4 pour un déploiement GPU interarchitecture, NVIDIA indiquant jusqu’à 5x plus de débit par rapport à d’autres modèles open source de sa catégorie.
  • LatentMoE expert routing et multi-token prediction pour améliorer l’efficacité de génération dans les tâches multi-tours.
  • Multi-Teacher On-Policy Distillation utilisant les retours de plus de dix modèles enseignants spécialisés par domaine, favorisant la spécialisation et l’amélioration continue.
  • Poids ouverts, recettes ouvertes et licence conçue pour faciliter l’adoption, l’évaluation et le fine-tuning du modèle.

Comment utiliser NVIDIA Nemotron 3 Ultra

Les équipes utiliseraient généralement Nemotron 3 Ultra comme couche de raisonnement dans un système d’agents, en particulier lorsque les tâches nécessitent une planification à long terme ou une synthèse rigoureuse d’informations. Une configuration pratique consisterait à l’associer à des modèles plus petits et efficaces pour les appels d’outils courants, les étapes de retrieval, la validation ou d’autres opérations à fort volume.

Pour démarrer, les développeurs évalueraient le modèle sur les workflows qu’ils doivent automatiser, puis l’adapteraient via du fine-tuning ou un entraînement propre à leur domaine si leur cas d’usage exige un comportement spécialisé. Comme NVIDIA met l’accent sur les poids et recettes ouverts, le modèle s’adresse aux équipes qui souhaitent l’inspecter, l’adapter et le déployer dans leur propre infrastructure et leurs pipelines d’agents.

Cas d’utilisation

  • Orchestration d’agents de code qui doivent conserver des décisions d’architecture sur de longues sessions de développement.
  • Synthèse d’éléments contradictoires issus de nombreuses sources de recherche en une seule trace de raisonnement ou réponse.
  • Vérification de contraintes complexes, comme des exigences de conception de puces ou d’autres systèmes techniques comportant de nombreuses dépendances.
  • Exécution de workflows d’entreprise à long horizon où la planification répétée, l’usage d’outils et la validation peuvent augmenter le coût en tokens et la latence.
  • Prise en charge d’un comportement d’agent spécifique à un domaine, lorsque les développeurs souhaitent fine-tuner un modèle ouvert à l’aide de recettes d’entraînement transparentes.

FAQ

Nemotron 3 Ultra est-il un modèle de chatbot ou un modèle d’agent ? Il est présenté comme un modèle open source pour des workflows d’agent longs plutôt que comme un simple chatbot à un seul tour.

Qu’est-ce qui le différencie des modèles plus petits et efficaces ? La source le positionne comme la couche de raisonnement et d’orchestration pour les tâches les plus complexes, tandis que des modèles plus petits peuvent gérer l’exécution courante, la validation et l’appel d’outils.

NVIDIA mentionne-t-elle la prise en charge des longs contextes ? Oui. L’article met en avant des couches hybrides Mamba-Transformer et un résultat de benchmark sur long contexte, ce qui indique une focalisation sur la gestion de workflows étendus.

Les équipes peuvent-elles adapter le modèle à leur propre domaine ? La source indique qu’il est fourni avec des recettes, des poids et une licence ouverts destinés à faciliter l’adoption et le fine-tuning.

Quelle revendication de performances de déploiement est faite ? NVIDIA affirme qu’il atteint jusqu’à 5x plus de débit par rapport à d’autres modèles open source de sa catégorie, et que NVFP4 permet un déploiement GPU interarchitecture.

Alternatives

  • Autres grands modèles de raisonnement Mixture-of-Experts ouverts : ils sont proches lorsque le besoin principal est un raisonnement à grande capacité et un accès ouvert au modèle, même si les méthodes d’entraînement et le débit varient selon les modèles.
  • Modèles plus petits et efficaces pour l’usage d’outils et la validation : ils sont mieux adaptés aux tâches d’exécution à fort volume, mais ne sont pas positionnés comme couche d’orchestration principale pour les raisonnements difficiles.
  • Modèles de raisonnement frontier propriétaires : ils peuvent offrir une forte capacité de planification et une bonne qualité de réponse, mais sans le même niveau d’ouverture des poids, des recettes ou du workflow de fine-tuning.
  • Modèles de langage polyvalents à long contexte : ils peuvent gérer des entrées étendues, mais ne sont pas forcément optimisés pour l’orchestration d’agents, le routage MoE ou le profil de débit décrit ici.