Self-attention, bir dizinin her elemanının aynı dizideki diğer elemanlarla ne kadar ilgili olduğunu öğrenmesini sağlar; 'the cat sat on the mat, then it left' cümlesinde 'it' zamirinin 'cat'i mi yoksa 'mat'i mi kastettiğini buradan çıkarırız. Vaswani ve ekibinin 2017'deki Transformer makalesiyle ana akıma giren bu mekanizma, her Token için sorgu, anahtar ve değer vektörleri üretip ağırlıklı bir toplam alarak çalışır. Dizinin uzunluğunun karesiyle orantılı hesaplama maliyeti, Long Context modellerinin neden bu kadar pahalı olduğunun da temel sebebidir. Self-attention, bugünkü dil modellerinin 'dünyayı nasıl algıladığını' tanımlayan en temel hesaplamadır.
Dış Bağlantılar