Red teaming, askeri ve siber güvenlikten gelen bir kavramdır; AI bağlamında bir modelin ya da uygulamanın güvenlik, etik ve davranışsal sınırlarını adversaryal kullanıcı oynayan bir ekibin sistematik biçimde sınamasıdır. Anthropic'in 2022'deki red-team makalesi ve OpenAI'nin GPT-4 sistem kartı bu pratiği endüstri standardı haline getirdi. Tipik hedefler: zararlı içerik üretimi, Jailbreak yolları, Prompt Injection saldırıları, Bias sızıntıları ve hassas alanlardaki yanlış bilgi. Ekipler genellikle insan uzmanları otomatik adversaryal araçlarla birleştirir; sonuçlar Eval suite'lerine ve Guardrail tasarımına geri beslenir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2022
Red Teaming
Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.
- EN — İngilizce karşılığı
- Red Teaming
- TR — Türkçe karşılığı
- Red Teaming