HumanEval

HumanEval, OpenAI'nin 2021'deki Codex makalesiyle tanıttığı 164 elle yazılmış Python programlama görevi içeren bir kod Benchmark'ıdır. Her problem bir docstring, bir fonksiyon imzası ve gizli birim testlerle gelir; metrik olarak "pass@k" — k denemede en az birinin testleri geçme olasılığı — kullanılır. Codex ve Copilot'tan, GPT-4'e ve DeepSeek R1'e kadar her büyük model, gelişimini bu benchmark üzerinde raporladı. Modellerin doyma noktasına gelmesiyle MBPP, LiveCodeBench, SWE-bench gibi daha zorlu kod benchmark'ları öne çıktı.