"متجهات الشخصية" الجديدة من أنثروبيك تتيح لك فك شفرة شخصية الطالب في برنامج LLM وتوجيهها
ما هي ناقلات الشخصية وما الجديد؟
قدّمت أنثروبيك تقنية جديدة تُدعى " ناقلات الشخصية"، والتي تسمح للباحثين والمطورين بـ
تحديد ومراقبة والتحكم في السمات السلوكية أو "الشخصيات" في النماذج اللغوية الكبيرة (LLMs)والتحكم فيها.
يمكن أن تكون السمات سلبية (مثل: الشر، والتملق، والهلوسة) أو إيجابية (مثل: التفاؤل، والفكاهة).
كيفية العمل
تبدأ العملية بوصف لغة طبيعية لصفة مستهدفة (مثل "الشر") وإنشاء موجهين إرشاديين - أحدهما يشجع النموذج على التصرف بهذه الطريقة والآخر يثبطه.
يتم حساب الفرق في التفعيلات الداخلية للنموذج بين السلوكين. ويشكل هذا الاختلاف متجهًا يمكن استخدامه للكشف عن سلوك النموذج وتوجيهه في فضاء التنشيط العصبي الخاص به.
التطبيقات العملية
المراقبة المباشرة أثناء التوليد: توقع كيف يمكن للنموذج أن يتصرف قبل أن ينتج مخرجات، مما يتيح التدخل المبكر.
التوجيه اللاحق: قمع سمة غير مرغوب فيها عن طريق "طرح" متجهها أثناء توليد المخرجات (على الرغم من أن هذا قد يقلل من الأداء الكلي).
التوجيه الوقائي ("لقاحات الذكاء الاصطناعي"): إدخال السمة غير المرغوب فيها في التدريب المضبوط لتقليل احتمالية ظهورها لاحقًا، دون الإضرار بالأداء العام.
الفحص المبكر للبيانات: تحليل مجموعات البيانات قبل التدريب لاكتشاف العينات التي قد تنحاز بالنموذج نحو السلوك غير المرغوب فيه - حتى لو لم تكن واضحة للبشر أو مرشحات الذكاء الاصطناعي.
ما أهمية ذلك
توفر ناقلات الشخصية طريقة شفافة وموجهة لإدارة سلوك الذكاء الاصطناعي، بدلاً من الاعتماد فقط على تنظيم مجموعة البيانات أو إعادة التدريب الكامل.
يعمل نهج التوجيه الوقائي مثل اللقاح السلوكي، مما يعزز موثوقية النموذج دون التضحية بالقدرات.
ملخص:
كشفت أنثروبيك النقاب عن ناقلات الشخصية، وهي تقنية للكشف عن سمات سلوكية محددة في النماذج اللغوية الكبيرة ومراقبتها والتحكم فيها. من خلال تخطيط سمات مثل "الشر" أو "الفكاهة" في ناقلات، يمكن للمطورين توجيه سلوك الذكاء الاصطناعي وقمع السمات غير المرغوب فيها، وحتى "تطعيم" النماذج ضد السلوكيات السلبية دون تقليل الأداء - مما يحسن السلامة والشفافية والموثوقية.
