Китайські моделі на останньому тесті SWE-rebench посіли перше десятиліття і були висміяні за «накручування балів», цього разу вони займають чотири місця.

BlockBeatNews

Згідно з моніторингом 1M AI News, SWE-rebench — це щомісячний реальний бенчмарк, який витягує нові завдання з GitHub (issue + PR). Модель не може попередньо оптимізуватися під завдання. Відповідальний Ібрагім опублікував оновлення рейтингу 23 березня, скасувавши попередні демонстраційні приклади та обмеження у 80 кроків, додавши допоміжні оцінювальні завдання.

Останні топ-10 рейтингів:

  1. Claude Opus 4.6: 65.3%
  2. GPT-5.2 medium: 64.4%
  3. GLM-5: 62.8%
  4. GPT-5.4 medium: 62.8%
  5. Gemini 3.1 Pro Preview: 62.3%
  6. DeepSeek-V3.2: 60.9%
  7. Claude Sonnet 4.6: 60.7%
  8. Claude Sonnet 4.5: 60.0%
  9. Qwen3.5-397B-A17B: 59.9%
  10. Step-3.5-Flash: 59.6%

Відкритий модельний проект GLM-5 (ліцензія MIT) від Z.ai посідає третє місце з показником 62.8%, що є найвищим серед відкритих моделей у рейтингу. Чотири китайські моделі входять до топ-10: окрім GLM-5, це DeepSeek-V3.2 (шосте місце), Qwen3.5-397B-A17B (дев’яте) та Step-3.5-Flash (десяте). Керівник глобального напрямку Z.ai Лі Цзюсянь прокоментував, що під час останнього оновлення SWE-rebench всі китайські моделі опинилися поза топ-10, і їх звинуватили у «benchmaxing» (збільшенні балів).

Переглянути оригінал
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів