KV Cache, bir Transformer Decoder'ının her Token için hesapladığı anahtar (Key) ve değer (Value) vektörlerini saklayan bir önbellektir; sayesinde aynı vektörler her yeni token üretiminde sıfırdan hesaplanmaz. Bu, Autoregressive üretimin pratik olarak çalışabilir bir hıza ulaşmasının ana sebebidir; KV cache olmasaydı her token için tüm geçmiş bağlamı yeniden işlemek gerekirdi. Ama önemli bir maliyeti de var: bağlam uzunluğu ve katman sayısıyla doğrusal büyür ve büyük modellerde gigabaytları bulabilir, bu yüzden GPU belleğinin başlıca tüketicisidir. PagedAttention ve verimli KV yönetimi, Long Context çağında işin içinden ekonomik biçimde çıkmanın anahtarıdır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2020
KV Cache (KV Önbelleği)
Önceki tokenler için hesaplanmış anahtar/değer vektörlerini saklayıp tekrar hesaplamayı önleyen bellek.
- EN — İngilizce karşılığı
- KV Cache
- TR — Türkçe karşılığı
- KV Önbelleği