يُظهر مهندسو Apple مدى براعة “الاستدلال” في الذكاء الاصطناعي

منذ فترة، كانت هناك شركات مثل OpenAI وGoogle يتحدث عن مهارات “التفكير” المتقدمة مثل الخطوة الكبيرة التالية في أحدث نماذج الذكاء الاصطناعي الخاصة بهم. الآن، أظهرت دراسة جديدة أجراها ستة مهندسين من شركة Apple أن “الاستدلال” الرياضي الذي تعرضه نماذج اللغة المتقدمة واسعة النطاق يمكن أن يكون هشًا للغاية وغير موثوق به عند مواجهة تغييرات تافهة في المشكلات المعيارية الشائعة.

يساعد الضعف الذي تم إبرازه في هذه النتائج الجديدة في دعم الأبحاث السابقة التي تشير إلى أن استخدام ماجستير إدارة الأعمال لمطابقة الأنماط الاحتمالية يفتقد الفهم الرسمي للمفاهيم الأساسية الضرورية لمهارات التفكير الرياضي الموثوقة حقًا. “إن الحاصلين على ماجستير إدارة الأعمال الحاليين غير قادرين على التفكير المنطقي الحقيقي”، افترض الباحثون بناءً على هذه النتائج. “بدلاً من ذلك، يحاولون تكرار الخطوات العقلانية التي لوحظت في بيانات التدريب الخاصة بهم.”

مزجها

“GSM-Symbolic: فهم حدود الاستدلال الرياضي في نماذج اللغات الكبيرة” – متاح الآن كالورق المطبوع مسبقًابدأ ستة باحثين من شركة Apple قام GSM8K بتوحيد ما يزيد عن 8000 مسألة من المسائل الرياضية اللفظية على مستوى الصف الدراسيهذا هو غالبا ما تستخدم كمعيار لمهارات التفكير المعقدة للماجستير في القانون الحديث. إنهم يتبعون النهج الجديد المتمثل في تعديل جزء من مجموعة الاختبار هذه لاستبدال أسماء وأرقام معينة بقيم جديدة – وبالتالي فإن مسألة حصول صوفي على 31 قطعة بناء في GSM8K لابن أخيها تصبح مسألة حصول بيل على 19 قطعة بناء. شقيقه في تصنيف GSM الرمزي الجديد.

يساعد هذا النهج على تجنب “تلوث البيانات” المحتمل الذي يمكن أن يحدث عندما يتم إدخال أسئلة GSM8K القياسية مباشرة في بيانات التدريب الخاصة بنموذج الذكاء الاصطناعي. وفي الوقت نفسه، لا تغير هذه التغييرات العشوائية الصعوبة الفعلية للاستدلال الرياضي المتأصل، مما يعني أن النماذج يجب أن تؤدي نظريًا أداءً أفضل عند اختبارها على GSM-Symbolic مثل GSM8K.

وبدلاً من ذلك، عندما اختبر الباحثون أكثر من 20 ماجستيرًا في إدارة الأعمال (LLMs) على نظام GSM-Symbolic، وجدوا انخفاضًا في متوسط ​​الدقة في جميع المجالات مقارنةً بـ GSM8K، مع انخفاض الأداء من 0.3 بالمائة إلى 9.2 بالمائة اعتمادًا على النموذج. أظهرت النتائج تباينًا كبيرًا في 50 تشغيلًا منفصلاً لـ GSM-Symbolic بأسماء وقيم مختلفة. إن فجوات الدقة البالغة 15 بالمائة بين أفضل وأسوأ عمليات التشغيل شائعة في نفس النموذج، ولسبب ما، يؤدي تغيير الأرقام إلى دقة أسوأ من تغيير الأسماء.

هذا النوع من الاختلاف – ضمن عمليات رمزية GSM مختلفة ومقارنة بنتائج GSM8K – يعد مفاجئًا إلى حد ما لأنه، كما يشير الباحثون، “خطوات التفكير الشاملة المطلوبة لحل السؤال تظل كما هي”. حقيقة أن مثل هذه التغييرات الصغيرة تؤدي إلى مثل هذه النتائج المتباينة تشير إلى الباحثين أن هذه النماذج لا تؤدي أي تفكير “رسمي”، بل “محاولات”.[ing] نوع من أساليب التوزيع الداخلي – مطابقة خطوات الحل ومواءمتها مع نفس الأنماط الموجودة في الأسئلة المحددة وبيانات التدريب.”

لا تشتت انتباهك

ومع ذلك، فإن التباين الإجمالي الموضح في تجارب رمز GSM كان غالبًا صغيرًا نسبيًا في المخطط الكبير للأشياء. على سبيل المثال، انخفضت دقة ChatGPT-4o من OpenAI من 95.2 بالمائة على نظام GSM8K إلى نسبة أكثر إثارة للإعجاب بلغت 94.9 بالمائة على نظام GSM-Symbolic. يعد هذا معدل نجاح مرتفع للغاية باستخدام المعيار، بغض النظر عما إذا كان النموذج يستخدم المنطق “الرسمي” خلف الكواليس أم لا (انخفضت الدقة الإجمالية للعديد من النماذج بسرعة عندما أضاف الباحثون خطوة أو خطوتين منطقيتين إضافيتين إلى المشكلات.)

ومع ذلك، كان أداء امتحانات LLM التي تم اختبارها سيئًا للغاية، لدرجة أن باحثي Apple قاموا بتعديل معيار GSM-Symbolic لإضافة “بيانات ذات صلة على ما يبدو ولكنها في النهاية غير ذات صلة” إلى الأسئلة. بالنسبة لمجموعة معايير “GSM-NoOp” (اختصار لـ “no Operation”)، يمكن تعديل السؤال حول عدد الكيوي الذي يلتقطه الشخص على مدار عدة أيام ليشمل التفاصيل العشوائية “خمسة منهم”. [the kiwis] كان أقل قليلا من المتوسط.”

READ  منعت جامعة مينيسوتا من المساهمة في نواة لينكس

وقال الباحثون إن إضافة هذه التضليلات الحمراء يؤدي إلى “انخفاض كارثي في ​​الأداء” في الدقة مقارنة بـ GSM8K، حيث يتراوح من 17.5 بالمائة إلى 65.7 بالمائة، اعتمادًا على النموذج الذي تم اختباره. وكتب الباحثون أن هذه الانخفاضات الهائلة في الدقة تسلط الضوء على القيود الكامنة في استخدام “مطابقة الأنماط” البسيطة “لتحويل البيانات إلى وظائف دون فهم معناها حقًا”.

LEAVE A REPLY

Please enter your comment!
Please enter your name here