İçeriğe atla
MEVZU N°127ISTANBUL

MEVZU N° ETIKET / VOL. 059

#eval

0 blog · 0 haber · 15 wiki

§03

Wiki

15
§01Sözlük

ROUGE

Özetleme görevlerinde n-gram ve dizi örtüşmesini ölçen klasik değerlendirme metriği.

EN
ROUGE
TR
ROUGE
§02Sözlük

Lmsys Chatbot Arena

İki modelin kör eşleştirmesini insan tercihine göre puanlayan kamuya açık eval platformu.

EN
Lmsys Chatbot Arena
TR
Lmsys Chatbot Arena
§03Sözlük

Eval — Değerlendirme

Bir modelin ya da sistemin önceden tanımlı kriterlere göre puanlandığı test seti.

EN
Eval
TR
Eval — Değerlendirme
§04Sözlük

Kıyaslama (Benchmark)

Modelleri karşılaştırmak için kullanılan standart test seti ve değerlendirme protokolü.

EN
Benchmark
TR
Kıyaslama (Benchmark)
§05Sözlük

Halüsinasyon Oranı

Bir modelin uydurma ya da yanlış bilgi üretme sıklığını ölçen değerlendirme metriği.

EN
Hallucination Rate
TR
Halüsinasyon Oranı
§06Sözlük

BLEU

Makine çevirisini referans çeviriyle n-gram örtüşmesi üzerinden değerlendiren klasik metrik.

EN
BLEU
TR
BLEU
§07Sözlük

MMLU

57 alanda bilgi ve akıl yürütmeyi ölçen, çoktan seçmeli geniş kapsamlı bir benchmark.

EN
MMLU
TR
MMLU
§08Sözlük

GSM8K

İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.

EN
GSM8K
TR
GSM8K
§09Sözlük

Elo Reytingi

Satrançtan gelen, ikili karşılaşma sonuçlarından göreli güç skoru çıkaran sistem.

EN
Elo Rating
TR
Elo Reytingi
§10Sözlük

MBPP

Google'ın yayımladığı, neredeyse 1.000 temel Python problemi içeren kod benchmark'ı.

EN
MBPP
TR
MBPP
§11Sözlük

İkili Karşılaştırma

İki modelin aynı sorudaki cevaplarından hangisinin daha iyi olduğuna karar verilen eval yöntemi.

EN
Pairwise Comparison
TR
İkili Karşılaştırma
§12Sözlük

Yargıç Olarak LLM

Bir LLM'in başka bir modelin çıktısını değerlendirmesi için kullanıldığı eval yöntemi.

EN
LLM-as-Judge
TR
Yargıç Olarak LLM
§13Sözlük

Red Teaming

Bir AI sisteminin sınırlarını ve zayıflıklarını adversaryal yöntemlerle test etme pratiği.

EN
Red Teaming
TR
Red Teaming
§14Sözlük

HumanEval

Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.

EN
HumanEval
TR
HumanEval
§15Sözlük

Değerlendirme Döngüsü

Bir ajanın ürettiği çıktıyı sürekli olarak ölçüp düzelten geri bildirim döngüsü.

EN
Evaluation Loop
TR
Değerlendirme Döngüsü