انخفاضأداءClaudeFable5فيالمعايير،لكنمصنفالأمان-وليسالنموذج-يُلامعلىفشلالتوجيه

وفقًا لـ BridgeBench AI و Arena.AI، أدى إعادة تفعيل Claude Fable 5 في 1 يوليو إلى تناقض نتائج المقاييس المعيارية. أفادت BridgeBench بأن درجات تصحيح الأخطاء انهارت من 86.2 إلى 25.9، لكن البيانات أظهرت أن تسعًا من اثنتي عشرة مهمة أعيد توجيهها إلى Opus 4.8 بواسطة مصنف الأمان الجديد من Anthropic بدلاً من الوصول إلى Fable 5 نفسه. في الوقت نفسه، وجدت آلاف الأصوات البشرية للتفضيلات في Arena.AI أن أداء Fable 5 ظل ثابتًا أو تحسن في معظم الفئات عندما تعامل النموذج مع الطلبات فعليًا، حيث ارتفع أداء المستندات بمقدار 34 نقطة إيلو والنص الخبير بمقدار 25.

الفارق مهم: المستخدمون العامون في الكتابة الإبداعية والبحث وتحليل النصوص سيرون فارقًا طفيفًا، بينما يواجه المطورون الذين يعملون على إصلاح الأكواد وتصحيح الأخطاء توجيهًا احتياطيًا مستمرًا. أقرت Anthropic بأن المصنفات الجديدة ألقت شبكة واسعة جدًا في حظر المطالبات المتعلقة بالاستغلال، وقالت إن التحسينات ستأتي بمرور الوقت، لكنها لم تحدد جدولًا زمنيًا.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات