De acordo com Beating, a Nvidia lançou seu principal modelo de linguagem grande Nemotron 3 Ultra em 4 de junho, com 550 bilhões de parâmetros totais e 55 bilhões de parâmetros ativos. O modelo alcança 48 no índice de inteligência da Artificial Analysis, tornando-o o modelo aberto dos EUA com melhor desempenho, ficando em segundo lugar apenas para Kimi K2.6, que tem 54 pontos.
O modelo usa uma arquitetura híbrida Mamba-Transformer MoE que alterna camadas de espaço de estados Mamba-2 com camadas de atenção Transformer, suportando uma janela de contexto de 1 milhão de tokens e evitando o crescimento quadrático da KV cache. Em comparação com modelos densos de escala semelhante, a arquitetura híbrida atinge 5x mais throughput e 30% menos custos de inferência em tarefas de agentes. O Nemotron 3 Ultra está disponível no Hugging Face, NVIDIA NIM e OpenRouter.