Jailbreak, bir LLM'in güvenlik kısıtlarını ve Refusal davranışını promptla aşmaya çalışan saldırı türüdür. "DAN" (Do Anything Now) gibi rol-yapma promptları 2022 sonunda ChatGPT topluluğunda popülerleşti; sonradan birden çok adımlı, kodlanmış ya da çoklu mesaj manipülasyonu içeren çok daha sofistike yöntemler geldi. Prompt Injection'ın bir alt türü olarak görülür; ana fark, hedefin model davranışının kendi güvenlik sınırları olmasıdır. Red Teaming ekiplerinin günlük araç kutusunda yer alır ve Constitutional AI, RLHF ve Guardrail'lerle yapılan savunmaların temel test alanını oluşturur.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2023
Jailbreak
Bir LLM'in güvenlik kısıtlarını promptla aşmaya çalışan saldırı türü.
- EN — İngilizce karşılığı
- Jailbreak
- TR — Türkçe karşılığı
- Jailbreak