根據 Beating 消息,NVIDIA 已開源 Nemotron-Labs-TwoTower,這是一種離散文本擴散架構,旨在加速大型語言模型的文字生成。雙塔設計將一個保留推理能力的凍結自回歸模型,與一個可訓練的去噪塔(平行生成文字)分開。在一個 300 億參數的 Mamba-Transformer 混合專家模型上,僅使用基準預訓練資料的 1/12,TwoTower 保留了基準品質的 98.7%,同時生成速度提升了 2.42 倍,且無額外記憶體開銷。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。