Gate News informa que, el 12 de marzo, Nvidia lanzó el modelo de lenguaje grande de código abierto Nemotron 3 Super, diseñado para escenarios de aplicaciones multiagente. El modelo cuenta con un total de 1200 millones de parámetros, utiliza una arquitectura híbrida Mamba-Transformer MoE, y durante la inferencia activa solo 12 mil millones de parámetros por token. Su tecnología central, «MoE latente» (Latent MoE), comprime la incrustación del token en un espacio latente de bajo rango y luego lo enruta a la red de expertos, logrando activar hasta 4 expertos con el costo computacional de un solo experto, y aumentando hasta cinco veces el rendimiento de inferencia en comparación con la generación anterior, Nemotron Super. El modelo soporta de forma nativa una ventana de contexto de 1 millón de tokens, siendo adecuado para agentes autónomos que necesitan mantener estados de flujo de trabajo durante largos períodos. En la evaluación de carga de trabajo de agentes mediante la prueba de referencia PinchBench, Nemotron 3 Super obtuvo una puntuación del 85,6 %, la más alta entre modelos de código abierto similares. Nvidia también liberó simultáneamente un conjunto de datos de entrenamiento de más de 10 billones de tokens, 15 entornos de entrenamiento de aprendizaje por refuerzo y esquemas de evaluación, bajo la licencia NVIDIA Nemotron Open Model License. El modelo ya está disponible en plataformas como Hugging Face, build.nvidia.com, Perplexity y OpenRouter, y soporta despliegues en servicios en la nube como Google Cloud, Oracle, AWS Bedrock y Azure. Empresas como Perplexity, CodeRabbit, Cadence, Dassault Systèmes y Siemens ya lo han adoptado.