Multi-head attention, Self-Attention ya da Cross-Attention hesabını paralel birden çok 'başla' yaparak her başın farklı türde ilişkilere odaklanmasını sağlar. Bir baş söz dizimsel bağımlılıkları, bir diğeri uzun mesafeli koreferansları, bir başkası anlamsal ilgileri yakalar; sonra bu başların çıktıları birleştirilip bir sonraki katmana aktarılır. Vaswani ve ekibinin 2017 Transformer tasarımının temel inovasyonlarından biridir ve bugün hemen her LLM'de varsayılan olarak kullanılır. Modeli daha 'çok yönlü' yapar, çünkü tek bir dikkat dağılımına sıkışmak yerine eş zamanlı olarak farklı bakış açılarını taşır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2017
Çok-Başlı Dikkat (Multi-Head Attention)
Dikkat mekanizmasının paralel birden çok 'başla' aynı anda farklı ilişkileri öğrendiği versiyon.
- EN — İngilizce karşılığı
- Multi-head Attention
- TR — Türkçe karşılığı
- Çok-Başlı Dikkat