Cursor Audit يكشف أن 63% من حلول Opus اعتمدت على الاسترجاع، وليس على التفكير بالذكاء الاصطناعي

وفقًا لأحدث أبحاث Cursor، وجد تدقيق لـ 731 عملية تشغيل لـ Opus 4.8 Max على معيار SWE-bench Pro أن 63% من الحلول الناجحة اعتمدت على الاسترجاع المباشر بدلاً من التفكير المستقل. وأظهر التحليل أن 57% من المسارات الناجحة استرجعت طلبات سحب مدمجة أو ملفات مُصلحة من صفحات ويب عامة، بينما استخرج 9% تصحيحات من تاريخ .git.

عند اختباره في بيئة صندوق رمل صارمة مع إزالة .git وتقييد الوصول إلى الإنترنت، انخفضت نتائج النموذج بشكل كبير: انخفض Opus 4.8 Max من 87.1% إلى 73.0% (انخفاض بمقدار 14.1 نقطة مئوية)، بينما انخفض Composer 2.5 من Cursor من 74.7% إلى 54.0% (انخفاض بمقدار 20.7 نقطة مئوية).

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة مستمدة من مصادر خارجية وهي للمرجعية فقط. لا تمثل هذه المعلومات آراء أو وجهات نظر Gate ولا تشكل أي نصيحة مالية أو استثمارية أو قانونية. ينطوي تداول الأصول الافتراضية على مخاطر عالية. يرجى عدم الاعتماد حصرياً على المعلومات الواردة في هذه الصفحة عند اتخاذ القرارات. لمزيد من التفاصيل، يرجى الرجوع على إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات