Kıyaslama (Benchmark)

Benchmark, modelleri ortak bir görev tanımı ve ölçütle karşılaştırmak için kullanılan standartlaştırılmış test setidir. NLP'de GLUE/SuperGLUE, kodlamada HumanEval ve MBPP, genel bilgide MMLU, matematikte GSM8K, LLM kullanıcı tercihinde ise Chatbot Arena yaygın referanslar haline geldi. Tarihsel olarak benchmark'lar ilerlemenin ortak dilini sağladı, ancak modeller bu testlerde "doyduğunda" — neredeyse mükemmel sonuç ürettiklerinde — yeni ve daha zor benchmark'lar üretmek bir zorunluluk haline geldi (MMLU sonrası MMLU-Pro, GPQA, Humanity's Last Exam gibi). Eval ekosistemi, gerçek üretim kalitesini bunların ötesine taşıyacak özel testlerle tamamlanır.