Claude Fable 5 демонструє падіння продуктивності на бенчмарках, але Класифікатор безпеки — а не Модель — звинувачують у збоях маршрутизації.

Згідно з BridgeBench AI та Arena.AI, відновлення Claude Fable 5 1 липня спричинило суперечливі результати бенчмарків. BridgeBench повідомив, що показники налагодження впали з 86,2 до 25,9, але дані показали, що дев'ять із дванадцяти завдань були перенаправлені до Opus 4.8 новим класифікатором безпеки Anthropic, а не потрапляли до самого Fable 5. Тим часом, тисячі голосів людських уподобань Arena.AI показали, що продуктивність Fable 5 залишилася в основному незмінною або покращилася в більшості категорій, коли модель дійсно обробляла запити, причому продуктивність на документах зросла на 31 бал Elo, а експертний текст — на 25 балів.

Ця відмінність має значення: звичайні користувачі в творчому письмі, дослідженнях та аналізі тексту побачать мінімальну різницю, тоді як розробники, що працюють над виправленням коду та налагодженням, стикаються з постійним перенаправленням на резервні маршрути. Anthropic визнала, що нові класифікатори закидають надто широку мережу в блокуванні експлойт-пов'язаних запитів, і заявила, що з часом будуть внесені вдосконалення, але не надала жодних термінів.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів