GSM8K, OpenAI'nin 2021'de yayımladığı, 8.500 ilkokul seviyesinde matematik probleminden oluşan ve adım adım akıl yürütmeyi ölçen bir Benchmark'tır. Cevaba ulaşmak için 2-8 adımlık çıkarsama gerekir; bu da Chain-of-Thought'un başarıyı dramatik biçimde artırdığı klasik bir test ortamı sundu. GPT-3'ün %35 civarındaki performansından, GPT-4 sonrası %90+ skorlara giden ilerleme, akıl yürütme kapasitesinin hızlı yükselişini görselleştirdi. Modellerin doyumuna yaklaşmasıyla MATH ve AIME gibi daha zor matematik benchmark'ları gündeme geldi.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2021
GSM8K
İlkokul seviyesi matematik problemleriyle adım adım akıl yürütmeyi ölçen benchmark.
- EN — İngilizce karşılığı
- GSM8K
- TR — Türkçe karşılığı
- GSM8K