MBPP | AI Mevzuları

MBPP (Mostly Basic Python Problems), Google'ın 2021'de Austin ve arkadaşlarının makalesiyle tanıttığı, kitle kaynaklı yaklaşık 974 temel Python görevini içeren kod Benchmark'ıdır. Her problem doğal dil açıklaması, çözüm ve birim testlerle gelir; doğal dilden koda çeviri yeteneğini ölçer. HumanEval'in tamamlayıcısı olarak konumlanır; HumanEval daha kısa ve seyrek, MBPP ise daha geniş ve sıradan görevlere odaklıdır. Modern modeller MBPP'de %90+ pass@1 oranlarına ulaşarak benchmark'ı doyurmuş durumdadır; yine de hızlı bir mantık doğrulama referansı olarak rapor edilmeye devam ediyor.