Continuous batching, Yu ve arkadaşlarının 2022'deki Orca makalesiyle ana akıma giren ve sonra vLLM tarafından popülerleştirilen bir LLM servis tekniğidir. Klasik statik batch'leme tüm isteklerin aynı anda başlayıp aynı anda bitmesini bekler; bu da kısa istekleri uzun olanlara mahkûm eder ve GPU'yu boş bırakır. Continuous batching ise her token adımında batch'i dinamik olarak günceller: tamamlanan istekler hemen ayrılır, yeni gelenler boşalan slotlara yerleşir. Sonuç, tek-kullanıcı Latency'sini büyük ölçüde korurken sunucu genelinde dramatik Throughput kazanımıdır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2022
Sürekli Yığınlama (Continuous Batching)
Yeni isteklerin batch'in ortasına eklenip biten isteklerin hemen çıkmasını sağlayan dinamik servis tekniği.
- EN — İngilizce karşılığı
- Continuous Batching
- TR — Türkçe karşılığı
- Sürekli Yığınlama