DeepSeek開源TileKernels,公開內部訓練推理用GPU內核庫

據動察 Beating 監測,DeepSeek 以 MIT 許可證開源 TileKernels,一個用 TileLang 編寫的 GPU 核心庫,面向大模型訓練和推理場景。TileLang 是一種用 Python 表達高性能 GPU 核心的領域專用語言,由 tile-ai 團隊開發。DeepSeek 稱庫中多數核心在計算密度和內存帶寬方面已接近硬體性能極限,部分已用於內部訓練和推理。

庫包含六大類核心:MoE 門控與路由(混合專家模型的 Top-k 專家選擇、token 到專家映射、融合擴展/收縮與權重歸一化);量化(支持 FP8、FP4、E5M6 格式的逐 token、逐塊、逐通道量化,含融合 SwiGLU+量化操作);批量轉置;Engram 門控(含融合 RMSNorm 的前向/反向傳播與權重梯度歸約);Manifold HyperConnection(含 Sinkhorn 歸一化和混合拆分/應用);以及將底層核心封裝為可訓練層的高層 autograd 接口。其中 Engram 和 Manifold HyperConnection 是 DeepSeek 模型架構中的專有組件,此次隨代碼首次公開實現細節。

運行要求 NVIDIA SM90 或 SM100 架構 GPU(對應 H100/H200 或 Blackwell 系列)、CUDA Toolkit 13.1 以上、PyTorch 2.10 以上。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆