Cursor Audit показывает, что 63% решений Opus Solutions основывались на поиске, а не на рассуждениях ИИ

2026-06-26 06:29:27

Согласно последнему исследованию Cursor, аудит 731 прогонов Opus 4.8 Max в бенчмарке SWE-bench Pro показал, что 63% успешных решений основывались на прямом извлечении, а не на независимом рассуждении. Анализ показал, что 57% успешных трасс извлекали объединенные пул-реквесты или исправленные файлы из публичных веб-страниц, в то время как 9% извлекали патчи из истории .git.

При тестировании в строгой изолированной среде с удаленным .git и ограниченным доступом в интернет оценки моделей значительно снизились: Opus 4.8 Max упал с 87,1% до 73,0% (снижение на 14,1 процентного пункта), в то время как Composer 2.5 от Cursor рухнул с 74,7% до 54,0% (снижение на 20,7 процентного пункта).

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

10ч назад

Данные Industrial City от JD.com за 18 июня показывают, что инструменты на литий-ионных батареях и с ИИ стимулируют закупки оборудования МСП, при этом продажи новых товаров выросли более чем в 10 раз.

14ч назад

Платформа Codex от OpenAI обеспечивает 97,9% рабочего объема во всех отделах по состоянию на июнь 2026 года.

06-25 10:14

IBM объявляет о технологии чипов менее 1 нм с повышением производительности на 50% и снижением энергопотребления на 70% 25 июня

06-25 10:11

Sensetime сообщает, что использование корпоративных токенов выросло в 7 раз с момента запуска в мае, затраты снизились на 60%

06-25 08:47

Генеральный директор AWS: ИИ изменит половину офисных рабочих мест, не приведет к массовым увольнениям

Детальный анализ