Yapay zekanın düşünüp düşünmediği sorusu, yeni bir araştırmayla yeniden ısındı. Çalışma, LLM değerlendirmesinde yıllardır rapor edilen "insan benzeri" sonuçların ne kadarının gerçekten kavrayışa, ne kadarının sadece kalıp eşleşmesine ait olduğunu ölçüyor.
Centaur'un İddiası
Standart LLM'ler üzerine inşa edilmiş, psikolojik deney verileriyle rafine edilmiş bir model olan Centaur, karar verme ve yürütücü kontrol gibi alanlarda iyi performans rapor etmişti. Nature 2025 Temmuz sayısı bunu örnek bir başarı olarak çerçevelemişti.
Yeni Araştırmanın Bulguları
Zhejiang Üniversitesi araştırmacılarının National Science Open'da yayınladığı çalışmaya göre Centaur'un başarısı büyük ölçüde aşırı uyumdan kaynaklanıyor olabilir. Model, görevleri anlamak yerine eğitim verilerindeki kalıpları tanıyıp beklenen cevapları yeniden üretiyor.
Çarpıcı Test
Araştırmacılar, orijinal çoktan seçmeli yönergeleri "Lütfen A seçeneğini seçin" ile değiştirdi. Centaur orijinal veri setinden "doğru cevapları" seçmeye devam etti — soruların anlamını yorumlamadığını gösteriyor.
Yapay Zeka Değerlendirmesi İçin Anlamı
LLM yeteneklerini değerlendirirken dikkat şart. "Kara kutu" yapı, çıktıların nasıl üretildiğini gizliyor — halüsinasyon ve yanlış yorumlama riski yüksek. Test paneli, salt benchmark skorlarına değil, dağılım dışı ve karşı-olgusal denemelere de yer açmak zorunda.
Bu haberi kaynak olarak kullan: AI Mevzuları · 28 Nisan 2026 · aimevzulari.com/haberler/yapay-zeka-dusunebiliyor-mu-centaur-arastirma-supheli