MEVZU N°12707.05.2026ISTANBULYEAR I — VOL. III

MEVZU N° ETIKET / VOL. 059

#eval

0 blog · 0 haber · 15 wiki

§03

Wiki

§01Sözlük

ROUGE

Özetleme görevlerinde n-gram ve dizi örtüşmesini ölçen klasik değerlendirme metriği.

EN: ROUGE
TR: ROUGE

§02Sözlük

Lmsys Chatbot Arena

İki modelin kör eşleştirmesini insan tercihine göre puanlayan kamuya açık eval platformu.

EN: Lmsys Chatbot Arena
TR: Lmsys Chatbot Arena

§03Sözlük

Eval — Değerlendirme

Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.

EN: Eval
TR: Eval — Değerlendirme

§04Sözlük

Kıyaslama (Benchmark)

Modelleri karşılaştırmak için kullanılan standart test seti ve değerlendirme protokolü.

EN: Benchmark
TR: Kıyaslama (Benchmark)

§05Sözlük

Halüsinasyon Oranı

Bir modelin uydurma ya da yanlış bilgi üretme sıklığını ölçen değerlendirme metriği.

EN: Hallucination Rate
TR: Halüsinasyon Oranı

§06Sözlük

BLEU

Makine çevirisini referans çeviriyle n-gram örtüşmesi üzerinden değerlendiren klasik metrik.

EN: BLEU
TR: BLEU

§07Sözlük

MMLU

57 alanda bilgi ve akıl yürütmeyi ölçen, çoktan seçmeli geniş kapsamlı bir benchmark.

EN: MMLU
TR: MMLU

§08Sözlük

GSM8K

İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.

EN: GSM8K
TR: GSM8K

§09Sözlük

Elo Reytingi

Satrançtan gelen, ikili karşılaşma sonuçlarından göreli güç skoru çıkaran sistem.

EN: Elo Rating
TR: Elo Reytingi

§10Sözlük

MBPP

Google'ın yayımladığı, neredeyse 1.000 temel Python problemi içeren kod benchmark'ı.

EN: MBPP
TR: MBPP

§11Sözlük

İkili Karşılaştırma

İki modelin aynı sorudaki cevaplarından hangisinin daha iyi olduğuna karar verilen eval yöntemi.

EN: Pairwise Comparison
TR: İkili Karşılaştırma

§12Sözlük

Yargıç Olarak LLM

Bir LLM'in başka bir modelin çıktısını değerlendirmesi için kullanıldığı eval yöntemi.

EN: LLM-as-Judge
TR: Yargıç Olarak LLM

§13Sözlük

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN: Red Teaming
TR: Red Teaming

§14Sözlük

HumanEval

Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.

EN: HumanEval
TR: HumanEval

§15Sözlük

Değerlendirme Döngüsü

Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.

EN: Evaluation Loop
TR: Değerlendirme Döngüsü