MEVZU N° ETIKET / VOL. 059
#eval
0 blog · 0 haber · 15 wiki
Wiki
ROUGE
Özetleme görevlerinde n-gram ve dizi örtüşmesini ölçen klasik değerlendirme metriği.
- EN
- ROUGE
- TR
- ROUGE
Lmsys Chatbot Arena
İki modelin kör eşleştirmesini insan tercihine göre puanlayan kamuya açık eval platformu.
- EN
- Lmsys Chatbot Arena
- TR
- Lmsys Chatbot Arena
Eval — Değerlendirme
Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.
- EN
- Eval
- TR
- Eval — Değerlendirme
Kıyaslama (Benchmark)
Modelleri karşılaştırmak için kullanılan standart test seti ve değerlendirme protokolü.
- EN
- Benchmark
- TR
- Kıyaslama (Benchmark)
Halüsinasyon Oranı
Bir modelin uydurma ya da yanlış bilgi üretme sıklığını ölçen değerlendirme metriği.
- EN
- Hallucination Rate
- TR
- Halüsinasyon Oranı
BLEU
Makine çevirisini referans çeviriyle n-gram örtüşmesi üzerinden değerlendiren klasik metrik.
- EN
- BLEU
- TR
- BLEU
MMLU
57 alanda bilgi ve akıl yürütmeyi ölçen, çoktan seçmeli geniş kapsamlı bir benchmark.
- EN
- MMLU
- TR
- MMLU
GSM8K
İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.
- EN
- GSM8K
- TR
- GSM8K
Elo Reytingi
Satrançtan gelen, ikili karşılaşma sonuçlarından göreli güç skoru çıkaran sistem.
- EN
- Elo Rating
- TR
- Elo Reytingi
MBPP
Google'ın yayımladığı, neredeyse 1.000 temel Python problemi içeren kod benchmark'ı.
- EN
- MBPP
- TR
- MBPP
İkili Karşılaştırma
İki modelin aynı sorudaki cevaplarından hangisinin daha iyi olduğuna karar verilen eval yöntemi.
- EN
- Pairwise Comparison
- TR
- İkili Karşılaştırma
Yargıç Olarak LLM
Bir LLM'in başka bir modelin çıktısını değerlendirmesi için kullanıldığı eval yöntemi.
- EN
- LLM-as-Judge
- TR
- Yargıç Olarak LLM
Red Teaming
Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.
- EN
- Red Teaming
- TR
- Red Teaming
HumanEval
Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.
- EN
- HumanEval
- TR
- HumanEval
Değerlendirme Döngüsü
Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.
- EN
- Evaluation Loop
- TR
- Değerlendirme Döngüsü