أخيرًا مقياس أداء فعلي يهم حقًا.


انسَ MMLU ودرجات الرياضيات.. يختبر PinchBench أي نموذج ذكاء اصطناعي هو الأفضل في أداء العمل الحقيقي.
ليس للإجابة على الأسئلة العامة. بل للقيام بالأشياء فعليًا:
→ البحث عن معلومات من مصادر ويب متعددة
→ إنشاء وجدولة الاجتماعات
→ تنظيم الملفات على جهاز الكمبيوتر الخاص بك
→ كتابة وإدارة الرسائل الإلكترونية
يختبر النماذج التي تعمل كوكلاء من خلال OpenClaw.. مما يعني أن الذكاء الاصطناعي يجب أن يستخدم الأدوات، يربط الإجراءات، ويكمل المهام من البداية إلى النهاية.
النتائج مثيرة للاهتمام:
> Gemini 3 Flash يتصدر بنسبة 95.1%
> MiniMax M2.1 يليه بقربه بنسبة 93.6%
> Kimi K2.5 بنسبة 93.4%
> Claude Sonnet بنسبة 92.7%
> Gemini 3 Pro بنسبة 91.7%
> Claude Haiku بنسبة 90.8%
> Claude Opus 4.6 بنسبة 90.6%
> GPT-5 Nano بنسبة 85.8%
الفارق بين الأعلى والأدنى هو فقط ~10%.. مما يعني أن معظم النماذج المتقدمة أصبحت جيدة جدًا في مهام الوكيل.
لكن الاستنتاج الحقيقي؟ Gemini Flash.. نموذج خفيف الوزن.. يتفوق على كل النماذج الثقيلة في العمل الوكالي العملي. السرعة + استخدام الأدوات > الذكاء الخام.
هذا هو النوع من المقاييس الذي يجب أن يحدد النموذج الذي تستخدمه يوميًا.. وليس اختبارًا أكاديميًا لا أحد يتصل به.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.43Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.51Kعدد الحائزين:2
    0.41%
  • القيمة السوقية:$2.8Kعدد الحائزين:2
    0.71%
  • تثبيت