據 1M AI News 監測,SWE-rebench 是一個每月從 GitHub 抽取全新軟體工程任務(issue + PR)的即時基準測試,模型無法提前針對題目優化。維護者 Ibragim 3 月 23 日公布榜單更新,取消了此前的範例演示和 80 步操作限制,新增輔助評估任務。
最新前十排名:
智譜 AI 的開源模型 GLM-5(MIT 協議)以 62.8% 排名第三,是榜上最高的開源模型。中國模型佔前十中四席,除 GLM-5 外,還有深度求索 DeepSeek-V3.2(第六)、阿里通義千問 Qwen3.5-397B-A17B(第九)以及階躍星辰 Step-3.5-Flash(第十)。智譜 Z.ai 全球負責人李子玄評論稱,上一次 SWE-rebench 更新時中國模型全部落在前十之外,被批評為「benchmaxing」(刷分)。