NVIDIA Nemotron 3 Ultra icon

NVIDIA Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultra 是一款开源 550B 参数 MoE 模型,专为长流程智能体工作流打造,支持推理、上下文保留与高效工具调用,并提供开源权重、配方和微调支持。

NVIDIA Nemotron 3 Ultra

什么是 NVIDIA Nemotron 3 Ultra?

NVIDIA Nemotron 3 Ultra 是一款开源 550B 参数 Mixture-of-Experts 模型,具备 55B 活跃参数,专为长流程智能体工作流打造。它面向需要持续推理、工具使用、上下文保留以及在多轮交互中高效执行的智能体编排任务。

该模型旨在帮助开发者将智能体系统拆分为不同层级的工作:用于复杂规划的前沿推理,以及用于高频调用、验证和工具使用的更高效执行。NVIDIA 表示,Nemotron 3 Ultra 结合了面向长上下文处理的架构改进、更快的推理速度以及开源训练配方,使团队能够根据领域特定需求对其进行适配和微调。

主要特性

  • 550B 参数的 Mixture-of-Experts 架构,具备 55B 活跃参数,在每个 token 仅使用部分参数的同时提供大容量能力。
  • 专为智能体编排打造,包括规划、长流程推理,以及跨多轮的重复工具调用处理。
  • 采用 Hybrid Mamba-Transformer 层,实现更高效的长上下文处理,适合需要保留并利用长对话或任务历史的智能体。
  • 支持 NVFP4 量化,可进行跨架构 GPU 部署;NVIDIA 称其吞吐量最高可比同类其他开源模型提升 5 倍。
  • LatentMoE 专家路由与多 token 预测,提升多轮任务中的生成效率。
  • Multi-Teacher On-Policy Distillation,利用十多个领域专用教师模型的反馈,支持专业化与持续改进。
  • 开源权重、开源配方和许可设计,便于模型采用、评估和微调。

如何使用 NVIDIA Nemotron 3 Ultra

团队通常会将 Nemotron 3 Ultra 作为智能体系统中的推理层,尤其适用于需要长周期规划或对信息进行谨慎整合的任务。实际部署中,可将其与更小、更高效的模型配合,用于常规工具调用、检索步骤、验证或其他高频操作。

上手时,开发者通常会先在需要自动化的工作流上对其进行评估,然后在用例需要特定行为时,通过微调或领域特定训练进行适配。由于 NVIDIA 强调开源权重和配方,该模型面向希望在自有基础设施和智能体流水线中进行检查、适配和部署的团队。

使用场景

  • 编排编码智能体,在长时间开发会话中保持架构决策一致性。
  • 将来自多个研究来源的相互矛盾证据整合为单一推理链或答案。
  • 验证复杂约束,例如芯片设计要求或其他具有多重依赖的技术系统。
  • 运行长周期企业工作流,其中重复规划、工具使用和验证会增加 token 成本和延迟。
  • 支持领域特定的智能体行为,开发者可使用透明的训练配方对开源模型进行微调。

常见问题

Nemotron 3 Ultra 是聊天机器人模型还是智能体模型?
它被定位为面向长流程智能体工作流的开源模型,而不是简单的单轮聊天机器人。

它与更小、更高效的模型有何不同?
源文将其定位为更复杂调用中的推理与编排层,而更小的模型可以处理常规执行、验证和工具调用。

NVIDIA 是否说明了对长上下文使用的支持?
是的。文章强调了 Hybrid Mamba-Transformer 层和长上下文基准结果,表明其重点在于处理扩展工作流。

团队能否根据自己的领域对模型进行适配?
源文称其提供开源配方、权重和许可,旨在支持采用和微调。

给出了怎样的部署性能说法?
NVIDIA 表示,其吞吐量最高可比同类其他开源模型高 5 倍,并且 NVFP4 支持跨架构 GPU 部署。

替代方案

  • 其他大型开源 Mixture-of-Experts 推理模型:当主要需求是高容量推理和开放模型访问时,它们比较相似,不过具体训练方法和吞吐量各有不同。
  • 更小、更高效的工具调用与验证模型:它们更适合大规模执行任务,但并未被定位为复杂推理的主要编排层。
  • 专有前沿推理模型:它们可能提供较强的规划和答案质量,但在权重、配方或微调流程方面不一定具备同样的开放性。
  • 通用长上下文语言模型:它们可以处理更长输入,但未必针对智能体编排、MoE 路由或此处描述的吞吐特征进行优化。