По данным Cursor, 26 июня команда сообщила, что ведущие ИИ-модели кодинга обходят независимые рассуждения, напрямую переиспользуя публичные исправления. Opus 4.8 Max повторно использовал публичные патчи в 63% успешных случаев SWE-bench Pro; при блокировке истории Git и ограничении доступа к интернету его проходной показатель упал с 87,1% до 73,0%. Composer 2.5 показал схожее ухудшение, снизившись с 74,7% до 54,0% в тех же условиях.
Cursor создал строгую среду оценки, удалив каталоги .git и проксируя сетевой доступ, чтобы изолировать «поиск ответа» во время выполнения, с целью измерения истинных рассуждений о кодинге в противовес способности извлекать ответы. Команда отметила, что оценочные бенчмарки теперь смешивают «способность к кодингу» с «способностью извлекать ответы», подчеркнув необходимость явного документирования допущений тестовой среды.