智谱GLM-5.2 занимает первое место в DeepSWE открытом исходном коде: решает 44% сложных задач разработки, превосходит основные закрытые модели

Согласно мониторингу Beating, открытая модель AI от Zhipu GLM-5.2 официально вошла в базу данных долгосрочного программного обеспечения DeepSWE. В режиме максимальной мощности мышления вероятность успешного выполнения сложных задач достигает 44%, что занимает первое место среди открытых моделей.
По сравнению с ранее вошедшей моделью Kimi K2.7 Code, показатель успеха выше на 13 процентных пунктов.

Средняя стоимость выполнения каждой задачи для GLM-5.2 составляет 3,92 доллара, что немного выше, чем у Kimi K2.7 Code — 2,82 доллара, однако уровень успеха превосходит показатели нескольких основных закрытых моделей в определённых конфигурациях мышления, включая Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), а также Claude Opus 4.8 [low] (41%).

Разработчик оценки Datacurve создал базу DeepSWE специально для тестирования способности ИИ решать долгосрочные задачи. Тест включает 113 реальных программных задач, охватывающих 5 языков программирования. В отличие от традиционных тестов, предполагающих изменение только одного участка кода, DeepSWE требует от ИИ совместного редактирования нескольких файлов, в среднем исправляя более 600 строк кода. Тестирование проводится в изолированных контейнерах с строгими ограничениями по CPU и памяти.
Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев