NVIDIA Triton Inference Server, NVIDIA'nın 2019'dan beri sürdürdüğü açık kaynak bir çıkarım servis platformudur; PyTorch, TensorFlow, ONNX ve TensorRT dahil pek çok backend'i tek arayüzde sunabilir. Dynamic batching, model topluluğu (ensembles), HTTP/gRPC servis ve A/B model versiyonlama gibi production özellikleri sayesinde devasa kuruluşlarda standart hâline gelmiştir. LLM-spesifik bir araç değildir, ama TensorRT-LLM ile birleştirildiğinde modern dil modelleri için yüksek performanslı bir servis yığını oluşturur. vLLM'in LLM-spesifik elastikliğine sahip olmasa da, çoklu model türünü tek altyapıda servis etmesi gereken kurumsal ekipler için hâlâ tercih edilen seçim.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2019
NVIDIA Triton
NVIDIA'nın çoklu framework ve donanım için tasarladığı açık kaynak çıkarım sunucusu.
- EN — İngilizce karşılığı
- NVIDIA Triton
- TR — Türkçe karşılığı
- NVIDIA Triton