Qual é o relatório que deixou até Musk impressionado?



A Moonshot AI (equipa do Kimi) lançou recentemente um relatório técnico explosivo: "Attention Residuals", que atualiza directamente as conexões residuais (Residual Connections) usadas há quase 10 anos no Transformer. O resultado é que até Elon Musk não resistiu e deixou um comentário, sentindo-se impressionado (nível de choque "unbelievable").

O núcleo deste resumido numa frase:
"Deixem de fazer cada camada somar ingenuamente todas as informações das camadas anteriores com pesos iguais. Deixem o modelo aprender a usar atenção para escolher quais sinais das camadas iniciais realmente têm utilidade!"

No Transformer tradicional (estrutura PreNorm), a saída de cada camada é:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

Simples e bruto: independentemente de as informações das 100 camadas anteriores serem úteis ou não, tudo é adicionado de uma vez. Com camadas mais profundas, os sinais importantes das camadas iniciais são diluídos rapidamente pelas inúmeras camadas posteriores (chamam este fenómeno de PreNorm dilution ou representational dilution).

A equipa do Kimi substituiu directamente este sinal "+" por uma atenção leve entre camadas (depth-wise attention):

A nova fórmula parece assim (versão simplificada):
x_l = Attention( Q=x_l^{pre}, K=resumo de todas as camadas anteriores, V=valores correspondentes ) + outras coisas

A implementação mais prática que chamam de Block AttnRes: a cada poucas camadas (por exemplo, 8-16 camadas) fazem um resumo de key/value, depois usam atenção para seleccionar estes resumos, em vez de calcular atenção em cada camada. Desta forma, o aumento de memória e computação é mínimo (latência de inferência <2%), mas o desempenho é impressionante.

Os seus resultados experimentais (usando a sua série de modelos Kimi Linear, 48B total / 3B activo):
• Sob FLOPs iguais, ganho de desempenho equivalente a uma vantagem de computação de 1,25 vezes
• Melhoria óbvia em inferência de sequências longas e tarefas de raciocínio multietapas complexas
• A magnitude (norma) do estado oculto é mais estável, não explodindo ou atenuando-se como as conexões residuais tradicionais com maior profundidade
• Propagação de gradiente mais uniforme, camadas profundas mais fáceis de treinar

⚠️⚠️
Qual é a razão para a forte reação de Musk?

"Conexões residuais descansaram por oito anos, finalmente alguém se atreve a modificá-las, e ainda de forma tão elegante, com resultados tão bons?!"

Por que isto merece atenção? Porque as conexões residuais são praticamente o único "fio condutor de salvação" que permitiu ao Transformer treinar até 100+ camadas, ou mesmo milhares de camadas. Todos sentiam que já era óptimo e não podia ser melhorado. O resultado é que o Kimi, usando o mecanismo de atenção mais familiar, resolveu os problemas das próprias conexões residuais, equivalente a levar o conceito "atenção é tudo o que você precisa" para um novo patamar.

Agora já existem implementações em Rust (baseadas no framework burn), vários gráficos de explicação visual a proliferar no X, e há quem diga que esta é, após o mHC da DeepSeek, outra inovação arquitectónica verdadeiramente viável para a próxima geração de modelos de código aberto/fechado.

Se trabalha com grandes modelos, treina seu próprio LLM, este relatório vale a pena ser lido no original durante a noite + código (já aberto no GitHub).

Relatório:
Prepare-se para ficar impressionado 🚀
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar