Sakana AI Fugu Ultra 対 Fable 5: ベンチマーク比較がテストスキャフォールドの違いで疑問視される

据Beating监测,Sakana AI的多智能体系统Fugu Ultra声称在科学推理和编码基准测试中击败了Anthropic的Fable 5,但这一说法面临AI社区的广泛质疑。

批评者认为,基准测试分数高度依赖于评估过程中使用的测试框架。不同的框架实现可能导致10-20分的差异,这意味着报告的性能差异可能反映的是系统工程优化,而非基础模型能力的进步。

Sakana AI和Anthropic都发布了基于专有、供应商特定框架的结果,没有统一的第三方测试环境,这限制了直接比较的可靠性。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし