تقدم النماذج الاستدلالية أداءً مذهلاً في المهام الصعبة، لكن لديها عيباً مكلفاً: فهي تولد رموزاً زائدة لا تحسن الدقة. هذه المشكلة، المعروفة باسم الإفراط في التفكير، تهدر الموارد الحاسوبية وتزيد من تكاليف الاستدلال دون داعٍ.
تهدف ورقة بحثية جديدة صادرة عن جامعة كاليفورنيا في سان فرانسيسكو إلى معالجة هذه المشكلة. يقدم الباحثون ثلاث مساهمات رئيسية لحل هذه المشكلة
تطوير مقاييس لصعوبة مستوى المشكلة التي توضح العلاقة بين الصعوبة والإنفاق الأمثل للرمز المميز
ابتكار مجموعة بيانات dumb500 لتقييم الإفراط في التفكير في المشاكل البسيطة للغاية، و
تقديم ThoughtTerminator، وهي تقنية فك تشفير خالية من التدريب تعمل على تحسين معايرة نموذج التفكير بشكل كبير.
يعتمد هذا البحث على العمل السابق الذي يستكشف التفكير الفعال في النماذج اللغوية الكبيرة، ولكنه يركز بشكل فريد على معايرة ميزانية الرموز الرمزية التي تمت معايرتها حسب الصعوبة لزيادة الكفاءة إلى أقصى حد دون التضحية بالأداء.
كيفية ارتباط الصعوبة بالإنفاق الرمزي في الاستدلال
يقوم الباحثون بإضفاء الطابع الرسمي على صعوبة السؤال كمعدل عدم دقة النماذج عند الإجابة عن سؤال معين. ويلتقط هذا التعريف التشغيلي مدى صعوبة المشكلة بالنسبة لأنظمة الذكاء الاصطناعي الحالية بدلاً من الاعتماد على الحكم البشري.
يكشف تحليلهم عن وجود علاقة واضحة بين صعوبة مستوى السؤال ومتوسط إنفاق الرمز المميز عبر مجموعات بيانات متعددة: MATH500 وGPQA وZebraLogic. فكلما ازدادت صعوبة الأسئلة، تنفق النماذج بطبيعة الحال المزيد من الرموز في محاولة حلها، ولكنها تفعل ذلك بشكل غير متسق.
ترتبط هذه النتيجة بأبحاث أخرى حول كفاءة التفكير، مثل الأفكار التي تكون في كل مكان في نماذج التفكير الناقص، والتي تستكشف المشكلة العكسية المتمثلة في عدم كفاية تخصيص الرموز.
قياس الإفراط في التفكير كمياً
يحدد الباحثون مقياسين رئيسيين لقياس الإفراط في التفكير:
درجة الإفراط في التفكير العالمي (Og): متوسط الفرق بين متوسط إنفاق الرمز المميز للنموذج والحد الأدنى العالمي للإنفاق الذي لوحظ في جميع النماذج لكل سؤال.
درجة الإفراط في التفكير المحلي (Oenv): متوسط الفرق بين الحد الأقصى والحد الأدنى للإنفاق الرمزي داخل نموذج واحد لكل سؤال.
تكشف هذه المقاييس أن نماذج التفكير المنطقي (QwQ ومتغيرات DeepSeek-R1) تُظهر ميولاً مفرطة في التفكير أعلى بكثير من النماذج غير المنطقية، حيث يُهدر بعضها أكثر من 10000 رمز لكل سؤال في المتوسط.
مجموعة بيانات dumb500: اختبار النماذج على الأسئلة البسيطة
في حين أن الإفراط في التفكير في المسائل الصعبة أمر متوقع، إلا أنه توجد فجوة حاسمة في تقييم كيفية تعامل النماذج مع الأسئلة البسيطة للغاية. وقد أنشأ الباحثون مجموعة بيانات dumb500، وهي مجموعة بيانات تضم 500 سؤال بسيط عمداً يمكن للبشر الإجابة عنها بأقل جهد إدراكي ممكن.
الشكل 2: تكوين مجموعة بيانات dumb500 وطريقة التقدير. تحتوي مجموعة البيانات على أربع مجموعات فرعية (الدردشة والرمز والمهمة والرياضيات)، تم تقييم كل منها بأساليب خاصة بالمجال. الصورة من الورقة البحثية.
تغطي Dumb500 أربعة مجالات:
الرياضيات: العمليات الحسابية الأساسية والمقارنات والتفكير المنطقي البسيط
التفاعل التحادثي: الحوار غير الرسمي، والتفكير الذاتي، والمعرفة المشتركة
البرمجة والحوسبة: مفاهيم الترميز الأساسية وهياكل البيانات
تنفيذ المهام: مهام معالجة اللغة الطبيعية البسيطة
الهدف هو تقييم النماذج على بُعدين: الدقة (هل يمكنهم الإجابة بشكل صحيح؟) والكفاءة (هل يمكنهم القيام بذلك بإيجاز؟).
الشكل 3: توزيع الصعوبة الكلية لمجموعات البيانات الأربع التي تم تقييمها في هذا العمل. من خلال تضمين dumb500 في التحليل، يمكن للباحثين توصيف سلوك الإفراط في التفكير بشكل أكثر اتساقًا عبر طيف الصعوبة.
طرق التقييم المتخصصة لأنواع الأسئلة المختلفة
يتطلب كل مجال في dumb500 أساليب تقييم مختلفة:
أسئلة الرياضيات: تم تقييمها باستخدام طرق دقة بسيطة، مطابقة لـ MATH500، وGPQA، وZebraLogic
أسئلة البرمجة: تضمين حالات اختبار للبرنامج الموصوف في المطالبة، مع متصفح تلقائي قائم على Python
أسئلة المحادثة: يتم تقييمها على متطلبات مثل الملاءمة والإيجاز باستخدام محكّم GPT-4o
أسئلة المهام: تم تقييمها بناءً على المتطلبات العامة والمعايير الخاصة بالسؤال لاتباع التعليمات
يسمح إطار التقييم الشامل هذا بإجراء تقييم متسق عبر أنواع الأسئلة المتنوعة.
تحليل أداء النماذج من الأسئلة السهلة إلى الصعبة
عند اختبار نفس النماذج على dumb500، وجد الباحثون أن إنفاق الرمز المميز ليس له علاقة إيجابية مع الدقة في أسئلة الرياضيات البسيطة - بل وأحيانًا يظهر علاقة سلبية في مجالات أخرى.
الشكل 4: العلاقة بين متوسط الإنفاق الرمزي ومتوسط الدرجات للنماذج التي تم تقييمها على كل مجموعة فرعية من dumb500.
وهذا يؤكد أن النماذج ضعيفة المعايرة في المسائل السهلة، وغالبًا ما تنفق رموزًا غير ضرورية دون تحسين الأداء. تتماشى هذه النتيجة مع البحث حول التفكير في الرموز في نمذجة اللغة، والذي يفحص كيفية تخصيص النماذج للموارد الحاسوبية أثناء الاستدلال.



