據動察 Beating 監測,DeepSeek V4 公布了兩組形式化數學推理評測。Putnam(普特南競賽)是北美最高水平本科數學競賽。
在實用場景(Practical Regime)下,V4-Flash-Max 在 Putnam-200 Pass@8 基準上拿到 81.00 分,使用開源工具 LeanExplore 和受限採樣。作為對比,Seed-2.0-Prover 為 35.50,Gemini 3 Pro 和 Seed-1.5-Prover 均為 26.50。
在前沿場景(Frontier Regime)下,V4 採用混合形式-非形式推理方案,先用 informal reasoning 生成候選自然語言解,經自我驗證過濾後,再由 formal agent 在 Lean 中完成嚴格證明。V4 在 Putnam-2025 拿到 120/120 滿分,與 Axiom 並列第一,高於 Seed-1.5-Prover 的 110/120 和 Aristotle 的 100/120。前沿場景使用了大規模計算擴展,實用場景結果更能反映常規部署能力。
免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱
免責聲明。