جوجل ديب مايند تقترح معياراً جديداً لتقييم الفهم الأخلاقي الحقيقي للذكاء الاصطناعي

ديب مايند التابعة لجوجل تدعو إلى ثورة في كيفية اختبار أخلاقيات الذكاء الاصطناعي، مشيرة إلى أن الاختبارات الحالية تقيس فقط "التمثيل الخارجي" للسلوك وليس الفهم الأخلاقي العميق للنماذج اللغوية.

في دراسة حديثة نشرتها مجلة "نيتشر"، أوضح باحثو جوجل ديب مايند ضرورة إعادة تقييم أساليب اختبار سلوك أنظمة الذكاء الاصطناعي أخلاقياً. ومع تزايد اعتمادنا على هذه النماذج في قطاعات حساسة كالصحة النفسية واتخاذ القرارات المصيرية، يصبح التأكد من فهمها الحقيقي للمبادئ الأخلاقية أمراً بالغ الأهمية لتجنب أي تأثير سلبي مباشر على حياة الأفراد.

أشارت الدراسة إلى وجود فجوة بين مفهومين أساسيين: "الأداء الأخلاقي" الذي يعكس قدرة النظام على إنتاج إجابات تبدو سليمة، و"الكفاءة الأخلاقية" التي تعني فهم سبب اعتبار سلوك ما صحيحاً أو خاطئاً. ووفقاً للباحثين، تركز التقييمات الحالية بشكل مفرط على الأداء لسهولة قياسه، بينما تتجاهل الكفاءة، علماً بأن النماذج اللغوية تعتمد على التنبؤ الإحصائي بناءً على بيانات تدريب ضخمة لإنتاج ردود مقنعة دون امتلاك منطق أخلاقي داخلي.

تتضمن التحديات التي واجهتها الدراسة تعقيد القيم الأخلاقية وتنوعها الثقافي، بالإضافة إلى المواقف الواقعية التي تتطلب الموازنة بين قيم متعارضة، مثل المفاضلة بين العدالة والتكلفة أو الصدق واللطف.

لمعالجة هذا القصور، اقترحت ديب مايند تطوير سيناريوهات اختبارية شديدة التعقيد، يصعب أن تكون موجودة بشكل مباشر في بيانات التدريب، بهدف كشف ما إذا كان النظام يكرر أنماطاً محفوظة أم أنه يفكر أخلاقياً فعلاً. ودعت الدراسة إلى اختبار قدرة النماذج على التبديل المرن بين الأطر الأخلاقية المختلفة—كالانتقال من مبادئ الطب الحيوي إلى القواعد العسكرية حسب السياق—مما يعكس فهماً أعمق للمبادئ بدلاً من الاعتماد على التنبؤ الإحصائي السطحي.