الذكاء الاصطناعي العام، أو AGI، يُوصف غالبًا بأنه نظام يمكنه الأداء عبر العديد من المجالات كما يفعل البشر. تظهر نتائج الاختبار المعياري MATHVISTA التي أُطلقت هذا الأسبوع أن النماذج الحالية لا تزال بعيدة عن تحقيق هذا الهدف. اختبر باحثون من Microsoft Research و Sahara AI وجامعة إيموري قدرات أساسية للذكاء العام، وهي التفكير الرياضي المستند إلى المعلومات البصرية، بما في ذلك الرسوم البيانية والمخططات والرسوم التوضيحية. من بين 12 نموذجًا أساسيًا تم اختبارها، بما في ذلك ChatGPT و Gemini و Claude، حقق GPT-4 Vision أعلى نتيجة بنسبة 49.9%. وبلغ متوسط أداء المشاركين البشريين 60.3%، مما يبرز الفجوة بين أنظمة الذكاء الاصطناعي الحالية والقدرة على التفكير الأوسع المرتبطة غالبًا بـ AGI.
قال الباحث الرئيسي في Microsoft Research هاو تشنغ لـ Decrypt: «نريد أن تقوم الآلة بأشياء يمكن لأي شخص عادي أن يقوم بها في مهامه اليومية. هذا هو الهدف الذي يسعى الجميع لتحقيقه في سبيل AGI.» من خلال تحويل المشكلات إلى صور ومخططات ورسوم بيانية، يختبر المشروع ما إذا كانت النماذج يمكنها تفسير المعلومات البصرية بدقة وحل المشكلات الرياضية والمنطقية متعددة الخطوات — وهي مهارات تتجاوز مجرد التعرف على الأنماط في النصوص فقط. لا تزال النماذج تواجه صعوبة في تلك المهام، ويعد قياس هذا القيد أمرًا صعبًا.
عندما استعرض فريق تشنغ مجموعات البيانات التقييمية الموجودة، وجد أن العديد منها يتضمن مشكلات لا تتطلب التفكير البصري. غالبًا ما تصل النماذج إلى الإجابات الصحيحة اعتمادًا فقط على النص. قال تشنغ: «وهذا ليس مثاليًا.» تم إطلاق MathVista، المتوفر على GitHub و Hugging Face، في أكتوبر 2023. ومنذ ذلك الحين، تم تحميله أكثر من 275,000 مرة، بما في ذلك أكثر من 13,000 مرة في الشهر الماضي، وفقًا لـ Microsoft Research. لكن إنشاء مجموعة البيانات تطلب أكثر من تصنيف البيانات العادي. كانت شركة Microsoft Research بحاجة إلى مشرفين يمكنهم العمل على المشكلات في الحساب والجبر والهندسة والإحصاء، مع التمييز بين التفكير الرياضي الأعمق، مثل تفسير الرسوم البيانية أو حل المعادلات، عن المهام الأبسط مثل عد الأشياء أو قراءة الأرقام. بعد مرحلة تجريبية، اختارت Microsoft شركة Sahara AI لدعم الجهد. قدمت الشركة مشرفين مدربين، وسير عمل مخصص، وفحوصات جودة متعددة المراحل لإنتاج أكثر من 6000 مثال متعدد الوسائط تم استخدامه في الاختبار المعياري. بدون معايير موثوقة، يصبح قياس التقدم نحو الذكاء الآلي الأوسع أمرًا صعبًا، وفقًا لسيان رن، المدير التنفيذي لـ Sahara AI وأستاذ مشارك في علوم الحاسوب في USC. قال رن لـ Decrypt: «هناك تعقيد في تلوث البيانات، حيث بمجرد أن نبدأ في استخدام مجموعة البيانات هذه للاختبار، يتم امتصاص تلك النتائج في الإصدار التالي. لذلك، لا تعرف حقًا إذا كانوا يحلون مجموعة بيانات فقط، أم أن لديهم القدرة.» إذا ظهرت إجابات الاختبار المعياري في بيانات تدريب النموذج، فقد تعكس النتائج العالية الحفظ بدلاً من التفكير. مما يصعب تحديد ما إذا كانت أنظمة الذكاء الاصطناعي تتحسن فعلاً.
وأشار الباحثون أيضًا إلى حدود في بيانات التدريب. لقد تم دمج الكثير من الإنترنت المتاح علنًا بالفعل في مجموعات بيانات النماذج. قال تشنغ: «من المؤكد أنك بحاجة إلى وسيلة لإدخال بعض المعرفة الجديدة في هذه العملية. أعتقد أن هذا النوع من الأمور يجب أن يأتي من بيانات عالية الجودة حتى نتمكن من كسر حدود المعرفة هذه.» إحدى الطرق المقترحة تتضمن بيئات محاكاة حيث يمكن للنماذج التفاعل، والتعلم من التجربة، والتحسن من خلال التغذية الراجعة. قال تشنغ: «تخلق عالمًا توأمًا أو مرآة للعالم الحقيقي داخل صندوق رمل بحيث يمكن للنموذج اللعب والقيام بالكثير من الأشياء التي يفعلها البشر في الحياة الواقعية، بحيث يمكنه بشكل أساسي كسر حدود الإنترنت.» قال رن إن البشر قد لا يزالون يلعبون دورًا مهمًا في تحسين أنظمة الذكاء الاصطناعي. فبينما يمكن للنماذج توليد المحتوى بسرعة، يظل البشر أفضل في تقييمه. وأضاف: «هذه الفجوة بين الإنسان والذكاء الاصطناعي، حيث يكون الإنسان جيدًا، وأين يكون ضعيفًا، يمكن استغلالها لتحسين الذكاء الاصطناعي في المستقبل.»