NVIDIA Nemotron 3 Ultra

NVIDIA Nemotron 3 Ultra란?

NVIDIA Nemotron 3 Ultra는 55B 활성 파라미터를 갖춘 오픈 550B 파라미터 Mixture-of-Experts 모델로, 장시간 이어지는 agent 워크플로우를 위해 설계되었습니다. 지속적인 추론, 도구 사용, 컨텍스트 유지, 그리고 여러 턴에 걸친 효율적인 실행이 필요한 agent orchestration 작업에 적합합니다.

이 모델은 개발자가 agent 시스템을 서로 다른 작업 계층으로 나눌 수 있도록 돕는 것을 목표로 합니다. 복잡한 계획을 위한 frontier reasoning과 대량 호출, 검증, 도구 사용을 위한 더 효율적인 실행을 함께 지원합니다. NVIDIA는 Nemotron 3 Ultra가 장문 컨텍스트 처리, 더 빠른 추론, 오픈 학습 레시피를 위한 아키텍처 변경을 결합해 팀이 이를 도메인별 요구에 맞게 조정하고 파인튜닝할 수 있다고 설명합니다.

주요 기능

55B 활성 파라미터를 갖춘 550B 파라미터 Mixture-of-Experts 아키텍처로, 토큰당 파라미터의 일부만 사용하면서도 큰 용량을 제공합니다.
여러 턴에 걸친 계획, 긴 워크플로우에 대한 추론, 반복적인 도구 호출 처리를 포함한 agent orchestration용으로 구축되었습니다.
더 효율적인 장문 컨텍스트 처리를 위한 Hybrid Mamba-Transformer 레이어로, 긴 대화나 작업 이력을 유지하고 활용해야 하는 agent에 적합합니다.
크로스 아키텍처 GPU 배포를 위한 NVFP4 quantization 지원을 제공하며, NVIDIA는 같은 계열의 다른 오픈 모델 대비 최대 5배 높은 throughput을 언급합니다.
멀티턴 작업의 생성 효율을 높이기 위한 LatentMoE expert routing과 multi-token prediction을 지원합니다.
10개 이상의 도메인별 teacher 모델의 피드백을 활용하는 Multi-Teacher On-Policy Distillation으로, 특화와 지속적인 개선을 지원합니다.
오픈 가중치, 오픈 레시피, 그리고 모델의 도입, 평가, 파인튜닝을 쉽게 하도록 설계된 라이선스를 제공합니다.

NVIDIA Nemotron 3 Ultra 사용 방법

팀은 일반적으로 Nemotron 3 Ultra를 agent 시스템의 추론 계층으로 사용하며, 특히 장기 계획이나 정보의 신중한 종합이 필요한 작업에서 활용합니다. 실무에서는 이를 일상적인 도구 호출, 검색 단계, 검증, 또는 기타 대량 작업을 위한 더 작고 효율적인 모델과 함께 사용하는 구성이 적합합니다.

시작하려면 개발자는 자동화하려는 워크플로우에서 모델을 평가한 뒤, 사용 사례에 특화된 동작이 필요하면 파인튜닝이나 도메인별 학습으로 조정합니다. NVIDIA가 오픈 가중치와 레시피를 강조하는 만큼, 이 모델은 팀이 자체 인프라와 agent 파이프라인 내에서 이를 검토, 조정, 배포할 수 있도록 하는 데 초점이 맞춰져 있습니다.

사용 사례

긴 개발 세션 동안 아키텍처 결정을 유지해야 하는 코딩 agent의 orchestration
여러 연구 출처의 상충하는 증거를 하나의 추론 흔적이나 답변으로 종합
칩 설계 요구사항이나 많은 종속성이 있는 기타 기술 시스템처럼 복잡한 제약 검증
반복적인 계획, 도구 사용, 검증으로 토큰 비용과 지연이 커질 수 있는 장기 기업 워크플로우 실행
개발자가 투명한 학습 레시피를 사용해 오픈 모델을 파인튜닝하고자 할 때의 도메인별 agent 동작 지원

FAQ

Nemotron 3 Ultra는 챗봇 모델인가요, agent 모델인가요?
단일 턴 챗봇이라기보다 장시간 이어지는 agent 워크플로우를 위한 오픈 모델로 소개됩니다.

더 작은 효율적 모델과 무엇이 다른가요?
출처에서는 이를 더 어려운 호출을 위한 추론 및 orchestration 계층으로 설명하며, 더 작은 모델은 일상적인 실행, 검증, 도구 호출을 처리할 수 있다고 봅니다.

장문 컨텍스트 사용을 지원한다고 하나요?
네. 문서에서는 Hybrid Mamba-Transformer 레이어와 장문 컨텍스트 벤치마크 결과를 강조하며, 확장된 워크플로우 처리에 초점을 두고 있음을 보여줍니다.

팀이 자체 도메인에 맞게 모델을 조정할 수 있나요?
출처에 따르면 오픈 레시피, 가중치, 라이선스가 함께 제공되며, 이를 통해 도입과 파인튜닝을 지원하도록 되어 있습니다.

배포 성능에 대해 어떤 주장이 있나요?
NVIDIA는 같은 계열의 다른 오픈 모델 대비 최대 5배 높은 throughput을 달성한다고 말하며, NVFP4가 크로스 아키텍처 GPU 배포를 가능하게 한다고 설명합니다.

대안

다른 대형 오픈 Mixture-of-Experts 추론 모델: 핵심 요구가 높은 추론 성능과 오픈 모델 접근성일 때 유사하지만, 개별 학습 방식과 처리량은 다를 수 있습니다.
도구 사용 및 검증용의 더 작은 효율적 모델: 대량 실행 작업에 더 적합하지만, 어려운 추론을 위한 주 오케스트레이션 계층으로는 포지셔닝되지 않습니다.
독점형 최첨단 추론 모델: 강력한 계획 수립과 응답 품질을 제공할 수 있지만, 가중치, 레시피, 파인튜닝 워크플로우의 개방성은 동일하지 않을 수 있습니다.
범용 장문맥 언어 모델: 확장된 입력을 처리할 수 있지만, 에이전트 오케스트레이션, MoE 라우팅, 또는 여기서 설명하는 처리량 프로파일에 특화되어 있지는 않을 수 있습니다.