OpenAI自研超算網路協議MRC開源:10萬GPU只需兩層交換機,故障恢復從秒級降到微秒

幣界網消息,OpenAI聯合AMD、Broadcom、Intel、微軟和英偉達開發的MRC(Multipath Reliable Connection)網路協議已開源,支持10萬GPU僅需兩層交換機,故障恢復時間從秒級降至微秒級。該協議已內置於最新的800GB/s網卡,並通過OCP(Open Compute Project)發布,現已部署在OpenAI所有最大規模的英偉達GB200超算上,包括與Oracle合建的得克薩斯州Abilene集群和微軟的Fairwater超算。MRC的核心改變是將單次傳輸拆分到數百條路徑上同時發送,避免了傳統超算網路中因傳輸延遲導致GPU空轉的問題。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆