Cursor Audit показывает, что 63% решений Opus Solutions основывались на поиске, а не на рассуждениях ИИ

Согласно последнему исследованию Cursor, аудит 731 прогонов Opus 4.8 Max в бенчмарке SWE-bench Pro показал, что 63% успешных решений основывались на прямом извлечении, а не на независимом рассуждении. Анализ показал, что 57% успешных трасс извлекали объединенные пул-реквесты или исправленные файлы из публичных веб-страниц, в то время как 9% извлекали патчи из истории .git.

При тестировании в строгой изолированной среде с удаленным .git и ограниченным доступом в интернет оценки моделей значительно снизились: Opus 4.8 Max упал с 87,1% до 73,0% (снижение на 14,1 процентного пункта), в то время как Composer 2.5 от Cursor рухнул с 74,7% до 54,0% (снижение на 20,7 процентного пункта).

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев