NVIDIA Triton

NVIDIA Triton Inference Server, NVIDIA'nın 2019'dan beri sürdürdüğü açık kaynak bir çıkarım servis platformudur; PyTorch, TensorFlow, ONNX ve TensorRT dahil pek çok backend'i tek arayüzde sunabilir. Dynamic batching, model topluluğu (ensembles), HTTP/gRPC servis ve A/B model versiyonlama gibi production özellikleri sayesinde devasa kuruluşlarda standart hâline gelmiştir. LLM-spesifik bir araç değildir, ama TensorRT-LLM ile birleştirildiğinde modern dil modelleri için yüksek performanslı bir servis yığını oluşturur. vLLM'in LLM-spesifik elastikliğine sahip olmasa da, çoklu model türünü tek altyapıda servis etmesi gereken kurumsal ekipler için hâlâ tercih edilen seçim.