是什么报告让马斯克看了也觉得不可思议?
Moonshot AI(Kimi团队)最近扔出一篇炸裂的技术报告:《Attention Residuals》,直接把 Transformer 里用了快 10年的残差连接(Residual Connections)给升级了。结果连 Elon Musk 都忍不住留言,感觉不可思议(unbelievable 级别的震惊)。
这篇的核心一句话就能概括:
“别再让每一层都傻傻地把前面所有层的信息等权重加起来了,让模型自己学会用注意力去挑哪些早期层的信号才真正有用!”
传统 Transformer(PreNorm结构)里,每一层的输出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
简单粗暴:不管前面 100层的信息到底有没有用,都一股脑加进来。层数一深,早期重要信号就被后面无数层稀释得快没了(他们叫这个现象 PreNorm dilution 或 representational dilution)。
Kimi团队直接把这个“+”号换成了一个轻量级的跨层注意力(depth-wise attention):
新公式大概长这样(简化版):
x_l = Attention( Q=x_l^{pre}, K=汇总前面所有层的summary, V=对应value ) + 其他东西
更实际的实现他们叫 Block