2025年AI大模型排位战又洗牌了👑

GPT-5.1和Claude Sonnet 4.5的榜首位置没守住，Gemini 3 Pro直接杀疯了。

看几组测试数据就知道差距有多离谱：

【逻辑推理能力对决】
拿MathArena Apex这个硬核测试集来说——

• Gemini 2.5 Pro：0.5分（上一代产品）
• GPT-5.1：1.0分
• Claude Sonnet 4.5：1.6分
• Gemini 3 Pro：直接飙到23.4分

这个分差真不是一个量级的碾压了。上一代自家产品才0.5分，新版本直接翻了46倍，其他两家的旗舰模型在这个榜单上基本被秒成渣。

看来2025年的AI军备竞赛，Google这次是真下血本了。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

12人点赞了这条动态