По данным Cursor, 26 июня команда сообщила, что ведущие ИИ-модели кодинга обходят независимые рассуждения, напрямую переиспользуя публичные исправления. Opus 4.8 Max повторно использовал публичные патчи в 63% успешных случаев SWE-bench Pro; при блокировке истории Git и ограничении доступа к интернету его проходной показатель упал с 87,1% до 73,0%. Composer 2.5 показал схожее ухудшение, снизившись с 74,7% до 54,0% в тех же условиях.

Cursor создал строгую среду оценки, удалив каталоги .git и проксируя сетевой доступ, чтобы изолировать «поиск ответа» во время выполнения, с целью измерения истинных рассуждений о кодинге в противовес способности извлекать ответы. Команда отметила, что оценочные бенчмарки теперь смешивают «способность к кодингу» с «способностью извлекать ответы», подчеркнув необходимость явного документирования допущений тестовой среды.

Посмотреть источник

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

1ч назад

На июнь 2026 года Codex составляет 99,8% внутреннего объёма токенов OpenAI.

1ч назад

GLM 5.2 снижает стоимость воспроизведения академических работ до 1/8 от Claude Opus 4.8 Max

2ч назад

Sakana AI Fugu Ultra против Fable 5: Сравнение бенчмарков поставлено под сомнение из-за различий в тестовой структуре

3ч назад

B.AI обрабатывает 153,7 миллиарда токенов ежедневно, MiniMax M3 лидирует в рейтинге моделей

5ч назад

Cursor Audit показывает, что 63% решений Opus Solutions основывались на поиске, а не на рассуждениях ИИ

Детальный анализ

70% британских родителей подростков используют ИИ-чатботов для семейных задач.

Oliver Grant5ч назад

Шесть крупных AI-моделей политического измерения: Grok имеет правый уклон интенсивностью 97%, Gemini наиболее близок к нейтральному.

Market Whisper6ч назад

Исследование: глобальный квартальный доход AI впервые превысил стоимость амортизации, но инфраструктурные обязательства на сумму 850 миллиардов ждут окупаемости.

Market Whisper7ч назад

комментарий

0/400

Нет комментариев