PagedAttention

PagedAttention, vLLM'in temel inovasyonudur; Kwon ve ekibinin 2023 makalesinde tanıtılmıştır. Klasik LLM servisinde KV Cache her istek için büyük, bitişik bir blok hâlinde ayrılır ve bu yaklaşım dramatik bellek savurganlığına yol açar; pratikte GPU belleğinin %60-80'i fiilen boşa harcanır. PagedAttention, işletim sistemlerindeki sayfalı bellek mantığını ödünç alıp KV cache'i küçük bloklara böler ve istekler arasında dinamik olarak paylaştırır. Bu sayede aynı GPU üzerinde çok daha fazla eş zamanlı istek servis edilebilir; modern LLM çıkarımının ekonomik servis edilebilmesinin ana sebeplerinden biridir.