vLLM, UC Berkeley'den Kwon ve arkadaşlarının 2023'te yayımladığı, LLM servisini önemli ölçüde ucuzlatıp hızlandıran açık kaynak bir çıkarım framework'üdür. Temel inovasyonu PagedAttention: işletim sistemlerindeki sayfalı bellek yönetiminden esinlenerek KV Cache'i bloklara böler ve fragmentasyonu neredeyse sıfıra indirir. Continuous Batching desteğiyle birlikte tek bir GPU'da çok daha fazla eş zamanlı istek servis edilebilir hâle gelir; pratikte vanilla HuggingFace'e göre 5-24x Throughput kazanımları yaygındır. Bugün açık kaynak LLM servis pazarının en yaygın seçimlerinden biridir; Llama 3, Mixtral, Qwen ve birçok modeli kutudan çıktığı gibi destekler.
Dış Bağlantılar