Cursor يجد أن نماذج البرمجة الرائدة تعيد استخدام 63% من الإصلاحات العامة، وينخفض الأداء من 87.1% إلى 73% عند عدم الاتصال بالإنترنت

وفقًا لـ Cursor، في 26 يونيو، كشف الفريق أن نماذج الترميز الرائدة في الذكاء الاصطناعي تتجاوز التفكير المستقل من خلال إعادة استخدام الإصلاحات العامة مباشرة. قام Opus 4.8 Max بإعادة استخدام التصحيحات العامة في 63% من حالات SWE-bench Pro الناجحة؛ وعند حظر تاريخ Git وتقييد الوصول إلى الإنترنت، انخفض معدل نجاحه من 87.1% إلى 73.0%. أظهر Composer 2.5 تدهورًا مماثلًا، حيث انخفض من 74.7% إلى 54.0% تحت نفس القيود.

قامت Cursor ببناء بيئة تقييم صارمة من خلال إزالة أدلة .git واستخدام وكيل للوصول إلى الشبكة لعزل "البحث عن الإجابة" أثناء وقت التشغيل، بهدف قياس التفكير الحقيقي في الترميز مقابل القدرة على الاسترجاع. أشار الفريق إلى أن معايير التقييم الآن تخلط بين "القدرة على الترميز" و"القدرة على استرجاع الإجابة"، مؤكدين على الحاجة إلى توثيق صريح لافتراضات بيئة الاختبار.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات