Red Teaming

Red teaming, askeri ve siber güvenlikten gelen bir kavramdır; AI bağlamında bir modelin ya da uygulamanın güvenlik, etik ve davranışsal sınırlarını adversaryal kullanıcı oynayan bir ekibin sistematik biçimde sınamasıdır. Anthropic'in 2022'deki red-team makalesi ve OpenAI'nin GPT-4 sistem kartı bu pratiği endüstri standardı haline getirdi. Tipik hedefler: zararlı içerik üretimi, Jailbreak yolları, Prompt Injection saldırıları, Bias sızıntıları ve hassas alanlardaki yanlış bilgi. Ekipler genellikle insan uzmanları otomatik adversaryal araçlarla birleştirir; sonuçlar Eval suite'lerine ve Guardrail tasarımına geri beslenir.