اختراق الأوامر التوجيهية هو مصطلح يستخدم لوصف موقف يتم فيه خداع أو التلاعب بنموذج، وخاصة نموذج اللغة، لتوليد مخرجات تنتهك إرشادات السلامة أو تكون خارج الموضوع. وقد يشمل هذا المحتوى الضار أو المسيء أو غير ذي الصلة بالمطالبة.
هناك بعض التقنيات الشائعة التي يستخدمها المستخدمون لمحاولة "اختراق الأوامر التوجيهية"، مثل:
- التلاعب بالكلمات الرئيسية: قد يقدم المستخدمون كلمات رئيسية أو عبارات محددة مرتبطة بمحتوى مثير للجدل أو غير مناسب أو ضار من أجل خداع النموذج لتوليد مخرجات غير آمنة.
- التلاعب بالقواعد النحوية: قد يستخدم المستخدمون عمدًا قواعد نحوية أو إملائية أو علامات ترقيم رديئة لإرباك النموذج واستنباط استجابات قد لا يتم اكتشافها من خلال تخفيف السلامة.
- طرح أسئلة موجهة: يمكن للمستخدمين محاولة التلاعب بالنموذج من خلال طرح أسئلة متحيزة للغاية أو محملة، على أمل الحصول على استجابة مماثلة من النموذج.
للتصدي للاختراق الفوري، من الضروري للمطورين والباحثين بناء آليات أمان مثل مرشحات المحتوى وقوالب الإخطار المصممة بعناية لمنع النموذج من توليد مخرجات ضارة أو غير مرغوب فيها. يمكن أن يساعد المراقبة المستمرة والتحليل وتحسين تدابير التخفيف من المخاطر الأمنية الموضوعة في ضمان توافق مخرجات النموذج مع الإرشادات المطلوبة وتصرفه بمسؤولية.