HumanEval, OpenAI'nin 2021'deki Codex makalesiyle tanıttığı 164 elle yazılmış Python programlama görevi içeren bir kod Benchmark'ıdır. Her problem bir docstring, bir fonksiyon imzası ve gizli birim testlerle gelir; metrik olarak "pass@k" — k denemede en az birinin testleri geçme olasılığı — kullanılır. Codex ve Copilot'tan, GPT-4'e ve DeepSeek R1'e kadar her büyük model, gelişimini bu benchmark üzerinde raporladı. Modellerin doyma noktasına gelmesiyle MBPP, LiveCodeBench, SWE-bench gibi daha zorlu kod benchmark'ları öne çıktı.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2021
HumanEval
Python fonksiyonlarını birim testleriyle değerlendiren, OpenAI'nin tanıttığı kod benchmark'ı.
- EN — İngilizce karşılığı
- HumanEval
- TR — Türkçe karşılığı
- HumanEval