Önyargı (Bias)

Bir AI modelindeki bias, eğitim verisinin yapısal eşitsizliklerini, kültürel önyargılarını veya etiketleyenlerin bakış açılarını çıktıya taşıması anlamına gelir. Bu, halüsinasyondan farklıdır: model burada uydurmuyor, içerdiği örüntüleri tutarlı biçimde dışavuruyor. Pre-training verilerinde belirli demografilerin az temsili veya RLHF sırasında belirli görüşlerin pekiştirilmesi, bias'ın iki ana üreme alanıdır. AI Safety ve değerlendirme topluluğu bu yüzden çok dilli, çok kültürlü Benchmark setleri ile düzenli denetim yapıyor.