SWE-rebench clasificación más reciente: modelos de IA chinos ocupan los primeros catorce lugares, GLM-5 ocupa el tercer puesto

Gate News Noticias, el 25 de marzo, el mantenedor de la prueba de referencia SWE-rebench, Ibragim, anunció la actualización de la lista el 23 de marzo. SWE-rebench es una prueba de referencia en tiempo real que extrae nuevas tareas de ingeniería de software de GitHub cada mes, y el modelo no puede optimizarse previamente para las tareas. En esta actualización se eliminaron las demostraciones de ejemplo y la restricción de 80 pasos, además de añadirse tareas de evaluación auxiliares.

Las diez mejores posiciones más recientes son: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).

El modelo de código abierto de Zhipu AI, GLM-5 (licencia MIT), ocupa el tercer lugar con un 62.8%, siendo el modelo de código abierto mejor clasificado en la lista. Cuatro modelos chinos están en el top ten, además de GLM-5, incluyendo DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B de Alibaba Tongyi Qianwen (noveno) y Step-3.5-Flash (décimo). Li Zixuan, responsable global de Z.ai de Zhipu AI, afirmó que en la última actualización de SWE-rebench, todos los modelos chinos estaban fuera del top ten.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios