Yorumlanabilirlik, devasa sinir ağlarının kara kutu davranışını çözmeye çalışan araştırma alanıdır. Klasik yaklaşımlar dikkat haritaları veya öne çıkan özellik analizi kullanırken, modern hat artık Mechanistic Interpretability yönünde — modelin iç devrelerini ve tek tek nöron rollerini çıkarmaya çalışıyor. Anthropic ve OpenAI'deki interp ekipleri bu işin öncülerinden. Yorumlanabilirlik, AI Safety gündeminin temel teknik kollarından biri sayılıyor; çünkü modelin neyi neden yaptığını bilmek, hizalamayı doğrulamanın en güçlü yolu olabilir.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2018
Yorumlanabilirlik (Interpretability)
Bir AI modelinin neden belirli bir çıktıya ulaştığını insan tarafından anlaşılır biçimde açıklamayı amaçlayan alan.
- EN — İngilizce karşılığı
- Interpretability
- TR — Türkçe karşılığı
- Yorumlanabilirlik