فُسِّرت النتائج المبهرة الأخيرة من نماذج التفكير الكبيرة مثل نموذج R1 من DeepSeek على أنها انتصارات للتفكير المتسلسل (CoT). يبدو أن هذه النماذج "تفكر في" المشاكل خطوة بخطوة قبل الوصول إلى الإجابات. ولكن هل تعمل هذه الرموز الوسيطة في الواقع كخطوات منطقية ذات مغزى، أم أننا ببساطة نجسد سلوك النموذج؟
تفحص ورقة بحثية جديدة هذا التفسير بشكل نقدي من خلال التحقيق في كيفية تأثير دلالات الرموز الوسيطة - التي غالبًا ما توصف بأنها "أفكار" أو آثار منطقية - على أداء النموذج. وباستخدام آثار وحلول منطقية يمكن التحقق منها رسميًا، تكشف الدراسة عن نتيجة مفاجئة: يمكن للنماذج المدربة على آثار صاخبة لا معنى لها أن تؤدي أداءً جيدًا أو أفضل من تلك النماذج المدربة على آثار صحيحة. يتحدى هذا الأمر الافتراضات الأساسية حول كيفية عمل الاستدلال في النماذج اللغوية ويشير إلى أننا قد نبالغ في تفسير الرموز الوسيطة كدليل على التفكير الشبيه بالتفكير البشري.
فهم تاريخ آثار الاستدلال
لقد استكشفت الأبحاث السابقة تدريب نماذج المحولات على آثار تنفيذ الخوارزميات، بما في ذلك محول البحث (محولات مدربة على تنفيذ خوارزمية البحث A*) و"تيار البحث" (محولات مدربة على استيعاب عمليات البحث). أظهرت هذه الدراسات تحسن الأداء ولكنها لم تقيّم بشكل كامل ما إذا كانت الآثار نفسها ذات مغزى دلالي.
