صُممت النماذج العصبية القابلة للتشغيل الآلي بآليات أمان تمكنها من رفض التعليمات الضارة. ومع ذلك، وكما ورد في ورقة بحثية جديدة، اكتشف الباحثون ثغرة مقلقة تسمى "الاستئصال" - وهو هجوم جراحي يحدد ويزيل اتجاهاً واحداً في التمثيلات العصبية للنموذج المسؤول عن سلوك الرفض، مما يجعل النموذج يولد محتوى يرفضه عادة.
يعمل هذا الهجوم من خلال عزل الاتجاه المحدد في الفضاء الكامن للنموذج الأكثر مسؤولية عن توليد الرفض، ثم إزالته من خلال تحويل رياضي بسيط. تكشف فعالية هذه التقنية عن نقطة ضعف أساسية في طرق المحاذاة الحالية: فهي تخلق مسارات عصبية معزولة للسلامة بدلاً من دمج السلامة في جميع أنحاء فضاء تمثيل النموذج.

قام فريق من الباحثين من جامعة الملك عبد الله للعلوم والتقنية (KAUST) بتطوير دفاع بسيط وفعال بشكل مدهش ضد هجمات الرفض الموسع. حيث يقوم نهجهم بتعديل كيفية توليد النماذج لعمليات الرفض من خلال تدريبها على تقديم ردود أكثر تفصيلاً وسياقاً عند رفض الطلبات الضارة. هذا النهج، الذي يُسمى "الضبط الدقيق للرفض الموسع"، يوزع إشارة الأمان عبر أبعاد متعددة في مساحة تمثيل النموذج، مما يجعل عزلها وإزالتها أصعب بكثير.
أظهرت الأبحاث ذات الصلة حول استئصال ناقلات الرفض في Llama-3 نقاط ضعف مماثلة في أحدث النماذج، مما يسلط الضوء على أهمية الدفاعات القوية مثل تلك المقترحة هنا.
المشهد الحالي: تقنيات المحاذاة ونقاط ضعفها
تهدف تقنيات محاذاة النماذج اللغوية إلى ضمان التزام مخرجات النماذج بالقيم الإنسانية والمعايير الأخلاقية. تشمل الأساليب الحالية الضبط الدقيق الخاضع للإشراف (SFT) مع عروض توضيحية مصممة بعناية والتعلم المعزز من التغذية الراجعة البشرية (RLHF). وعادةً ما تؤدي هذه الأساليب إلى نماذج تُنتج نماذج تُنتج رفضًا سطحيًا ومباشرًا عند مواجهة طلبات ضارة.

على الرغم من التقدم في التدريب على المواءمة، لا تزال سلامة LLM هشة. فالنماذج عرضة لتقنيات عدائية مختلفة تُعرف باسم اختراقات السجن، بما في ذلك:
الضبط الدقيق الخاضع لإشراف الخصوم على مجموعات البيانات الضارة
هجمات لعب الأدوار
الهجمات القائمة على التدرج
الهجمات القائمة على اللوغاريتمات
هجمات الحقن الموجه والهجمات القائمة على السياق
هجمات تعديل الأوزان الثابتة
تتضمن آليات الدفاع الحالية أطر عمل تتحقق من الحماية من الضبط الدقيق الضار، وأساليب لاستعادة الأمان بعد الضبط الدقيق الحميد، وتقنيات لتقليل الضرر الناتج عن الضبط الدقيق الآمن. تتضمن الأساليب الأخرى إضافة طبقات حماية إضافية مثل مصنفات الأمان أو تنفيذ تقنيات التلاعب الفوري. يمثل العمل الأخير على تحسين سلامة LLM من خلال آليات رفض أكثر قوة اتجاهًا مهمًا آخر في هذا المجال.
ومع ذلك، قبل هذا البحث، لم يتناول أي عمل قبل هذا البحث هجمات الاستئصال في اتجاه الرفض على وجه التحديد.
فهم الاستئصال: كيف يعمل الهجوم
تعمل عملية الاستئصال عن طريق تحديد المسارات العصبية المسؤولة عن سلوك الرفض أولاً، ثم إزالتها جراحياً. تبدأ العملية بحساب متوسط التنشيطات في التيار المتبقي للنموذج للمطالبات الضارة والحميدة:
بالنسبة للمحفزات الضارة (H)، يكون متوسط التنشيط عند الطبقة ℓ والموضع p هو: μℓ,p := (1/n)∑ ∑x ∈ hℓH، p(x)
بالنسبة للمطالبات الحميدة (B)، يكون متوسط التنشيط هو: νℓ,p := (1/م ∑ ∑ ∈ ∈ ح،ص(س)
متجه الفرق rℓ,p := μℓ,p - νℓ,p يمثل اتجاه الرفض المرشح. بعد تحديد جميع المرشحين المحتملين، يتم اختيار اتجاه الرفض الأكثر فعالية r̂ من خلال إيجاد الاتجاه الذي يزيد من انخفاض دقة الرفض عند إزالته.
ثم يُستبعد اتجاه الرفض هذا من مصفوفات إسقاط مخرجات النموذج باستخدام جهاز عرض متعامد: Pr̂ := Id - rـ̂
يصبح الوزن المحذوف W̃out(ℓ) := Pr̂·Wout(ℓ)
إن تطبيق هذا التحويل على كل طبقة ينتج عنه نموذج محوٍ تكون قدرته على رفض الطلبات الضارة ضعيفة للغاية، بينما يبقى الأداء العام غير متأثر إلى حد كبير. ترتبط هذه النتائج بالبحث حول قدرات الرفض متعدد الوسائط، والذي يستكشف آليات أمان مماثلة في النماذج التي تعالج كلاً من النصوص والصور.
حل الرفض الموسع: دفاع بسيط ولكنه فعال
افترض الباحثون أن حالات الرفض القياسية عرضة للإلغاء لأنها موجزة وموحدة الأسلوب، مما يخلق بصمة تنشيط مركزة يمكن تحديدها وتحييدها بسهولة. ولمعالجة هذا الضعف، قاموا بتطوير مجموعة بيانات الرفض الموسع (ER) التي تحتوي على مطالبات ضارة مقترنة بردود شاملة.
يتكون كل رفض موسع من ثلاثة مكونات:
