Reddetme, modelin belirli bir isteği yerine getirmeyi politika veya güvenlik nedeniyle açıkça reddettiği davranıştır. ChatGPT ve Claude Sonnet gibi asistanlar, RLHF ve Constitutional AI ile bu davranışı nasıl ve ne zaman göstereceklerini öğrenir. İyi kalibre edilmiş bir reddetme net, kısa ve gerekçeli olur; aşırıya kaçtığında ise Over-refusal sorununa dönüşür. Pratik AI ürün tasarımında refusal kalibrasyonu, kullanıcı deneyimini doğrudan etkileyen ince bir denge çizgisidir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2022
Reddetme (Refusal)
Modelin politika veya güvenlik gerekçesiyle bir isteği yerine getirmeyi reddetmesi davranışı.
- EN — İngilizce karşılığı
- Refusal
- TR — Türkçe karşılığı
- Reddetme (Refusal)