Mekanik Yorumlanabilirlik

Mekanik yorumlanabilirlik, modeli yüzeyde değil iç yapıda çözmeye odaklanır: bir Transformer içindeki devreleri, dikkat başlıklarının görevlerini ve nöron gruplarının kavramlarla nasıl eşleştiğini tersine mühendislikle çıkarmaya çalışır. Anthropic'in transformer-circuits.pub serisi ve sparse autoencoder çalışmaları bu hattın bilinen örnekleri. Sıradan Interpretability'den farkı, doğal dilde özet üretmek yerine modelin iç mekanizmasının ayrıntılı haritalarını çıkarmasıdır. Bu çalışma, AI Safety tarafında modelin gerçekte ne düşündüğünü bilme arzusunun en iddialı yanıtı sayılıyor.