Yorumlanabilirlik (Interpretability)

Yorumlanabilirlik, devasa sinir ağlarının kara kutu davranışını çözmeye çalışan araştırma alanıdır. Klasik yaklaşımlar dikkat haritaları veya öne çıkan özellik analizi kullanırken, modern hat artık Mechanistic Interpretability yönünde — modelin iç devrelerini ve tek tek nöron rollerini çıkarmaya çalışıyor. Anthropic ve OpenAI'deki interp ekipleri bu işin öncülerinden. Yorumlanabilirlik, AI Safety gündeminin temel teknik kollarından biri sayılıyor; çünkü modelin neyi neden yaptığını bilmek, hizalamayı doğrulamanın en güçlü yolu olabilir.