Sakana AI Fugu Ultra 與 Fable 5:基準測試比較因測試框架差異而受質疑

根據 Beating 的監控,Sakana AI 的多代理系統 Fugu Ultra 宣稱在科學推理與程式設計基準測試中擊敗 Anthropic 的 Fable 5,此說法遭到 AI 社群的廣泛質疑。

批評者認為,基準測試分數高度依賴於評估時使用的測試框架。不同的框架實作可能引入 10-20 分的差異,這意味著報告中的性能差距可能反映了系統工程最佳化,而非基礎模型能力的進步。Sakana AI 與 Anthropic 均基於各自專有的、供應商特定的框架發布結果,缺乏統一的第三方測試環境,限制了直接比較的可靠性。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆