Chatbot Arena, UC Berkeley merkezli Lmsys ekibinin 2023 ortasında başlattığı ve insanların aynı soruyu kör halde iki modele sorup hangisinin cevabını tercih ettiğini oyladığı kamuya açık eval platformudur. Sonuçlar Elo Rating sistemiyle bir liderlik tablosuna dönüştürülür ve milyonlarca oy birikmesi sayesinde frontier modellerin gerçek dünya tercihlerine en yakın referanslardan biri olarak kabul gördü. MMLU gibi sentetik benchmark'lar doyduktan sonra topluluk dikkatini Arena'ya yöneltti. Sınırları da var: stil yanlılığı, prompt türü dağılımı ve oy başına ülke/kullanıcı popülasyonu sonucu etkiliyor.
Dış Bağlantılar