باحثون يطورون اختباراً جديداً "مستحيل" لكشف حدود الذكاء الاصطناعي

أمام تزايد تفوق أنظمة الذكاء الاصطناعي في الاختبارات الأكاديمية التقليدية، اكتشف باحثون أن التقييمات المعيارية مثل اختبار MMLU أصبحت سهلة للغاية، مما استدعى ابتكار اختبار جديد مصمم خصيصاً ليفشل فيه الذكاء الاصطناعي الحالي.

لسد هذه الفجوة، تعاون اتحاد عالمي يضم قرابة ألف باحث، من بينهم أساتذة من جامعات رائدة، لإنشاء اختبار واسع النطاق وعميق التخصص يُعرف باسم "الاختبار الأخير للبشرية" (HLE). هذا الاختبار يركز على المعرفة البشرية المتخصصة لدرجة أنه يمثل تحدياً حقيقياً للنماذج المتقدمة.

يتألف الاختبار من 2500 سؤال تغطي مجالات متنوعة تشمل الرياضيات والعلوم الإنسانية واللغات القديمة، بالإضافة إلى تخصصات دقيقة جداً، مثل ترجمة النقوش التدمرية أو تحليل نطق العبرية التوراتية. عمل الخبراء على ضمان أن تكون الأسئلة قابلة للتحقق ولا يمكن حلها بسهولة عبر البحث عبر الإنترنت، مما يضمن اختباراً حقيقياً للقدرات الاستدلالية والتحليلية.

المنهجية المتبعة كانت صارمة؛ حيث تم اختبار كل سؤال على النماذج الرائدة، وإذا نجح أي نظام في الإجابة عليه بشكل صحيح، يتم حذف السؤال لضمان بقاء الاختبار صعباً على الذكاء الاصطناعي. النتائج الأولية مثيرة للقلق بالنسبة لعمالقة التقنية؛ حيث حقق GPT-4o نسبة نجاح بلغت 2.7% فقط، ووصلت دقة Claude 3.5 Sonnet إلى 4.1%، بينما حققت النماذج الأكثر تطوراً دقة تتراوح بين 40% و50%.

يهدف مشروع HLE إلى توفير معيار شفاف وطويل الأمد لتقييم تطورات الذكاء الاصطناعي المستقبلية. ورغم إتاحة بعض الأسئلة للعامة، احتفظ الفريق بمعظم المحتوى سرياً لمنع نماذج الذكاء الاصطناعي من حفظ الإجابات مسبقاً.