NVIDIA Nemotron 3 Ultra

什么是 NVIDIA Nemotron 3 Ultra？

NVIDIA Nemotron 3 Ultra 是一款开源 550B 参数 Mixture-of-Experts 模型，具备 55B 活跃参数，专为长流程智能体工作流打造。它面向需要持续推理、工具使用、上下文保留以及在多轮交互中高效执行的智能体编排任务。

该模型旨在帮助开发者将智能体系统拆分为不同层级的工作：用于复杂规划的前沿推理，以及用于高频调用、验证和工具使用的更高效执行。NVIDIA 表示，Nemotron 3 Ultra 结合了面向长上下文处理的架构改进、更快的推理速度以及开源训练配方，使团队能够根据领域特定需求对其进行适配和微调。

团队通常会将 Nemotron 3 Ultra 作为智能体系统中的推理层，尤其适用于需要长周期规划或对信息进行谨慎整合的任务。实际部署中，可将其与更小、更高效的模型配合，用于常规工具调用、检索步骤、验证或其他高频操作。

上手时，开发者通常会先在需要自动化的工作流上对其进行评估，然后在用例需要特定行为时，通过微调或领域特定训练进行适配。由于 NVIDIA 强调开源权重和配方，该模型面向希望在自有基础设施和智能体流水线中进行检查、适配和部署的团队。

Nemotron 3 Ultra 是聊天机器人模型还是智能体模型？
它被定位为面向长流程智能体工作流的开源模型，而不是简单的单轮聊天机器人。

它与更小、更高效的模型有何不同？
源文将其定位为更复杂调用中的推理与编排层，而更小的模型可以处理常规执行、验证和工具调用。

NVIDIA 是否说明了对长上下文使用的支持？
是的。文章强调了 Hybrid Mamba-Transformer 层和长上下文基准结果，表明其重点在于处理扩展工作流。

团队能否根据自己的领域对模型进行适配？
源文称其提供开源配方、权重和许可，旨在支持采用和微调。

给出了怎样的部署性能说法？
NVIDIA 表示，其吞吐量最高可比同类其他开源模型高 5 倍，并且 NVFP4 支持跨架构 GPU 部署。