Mekanik yorumlanabilirlik, modeli yüzeyde değil iç yapıda çözmeye odaklanır: bir Transformer içindeki devreleri, dikkat başlıklarının görevlerini ve nöron gruplarının kavramlarla nasıl eşleştiğini tersine mühendislikle çıkarmaya çalışır. Anthropic'in transformer-circuits.pub serisi ve sparse autoencoder çalışmaları bu hattın bilinen örnekleri. Sıradan Interpretability'den farkı, doğal dilde özet üretmek yerine modelin iç mekanizmasının ayrıntılı haritalarını çıkarmasıdır. Bu çalışma, AI Safety tarafında modelin gerçekte ne düşündüğünü bilme arzusunun en iddialı yanıtı sayılıyor.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2022
Mekanik Yorumlanabilirlik
Modelin iç devrelerini ve nöron-nöron etkileşimlerini tersine mühendislikle çözmeyi amaçlayan yorumlanabilirlik dalı.
- EN — İngilizce karşılığı
- Mechanistic Interpretability
- TR — Türkçe karşılığı
- Mekanik Yorumlanabilirlik