Attention, bir modele girdideki farklı bileşenlere ne kadar ağırlık vereceğini öğrenme yeteneği kazandıran mekanizmadır. İlk olarak Bahdanau ve arkadaşları 2014'te makine çevirisinde uzun cümlelerin sıkışıklık sorununu çözmek için önerdi; her çıkış adımında girdi cümlesinin hangi parçalarının önemli olduğunu yumuşak bir biçimde seçiyordu. 2017'de Vaswani ve ekibi 'Attention Is All You Need' makalesinde tekrarlamayı tamamen attı ve sadece dikkate dayalı Transformer mimarisini ortaya koydu. Bugün Self-Attention, Cross-Attention ve Multi-Head Attention gibi varyantları her modern LLM'in kalbinde çalışıyor.
Dış Bağlantılar