RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme

RLHF, bir LLM'i insan tercihlerine göre hizalamak için kullanılan, önce ödül modeli sonra pekiştirmeli öğrenme aşamalarından oluşan üç adımlı bir tekniktir. OpenAI'in 2017'deki ilk denemelerinden 2022'deki InstructGPT ve ChatGPT'ye uzanan yolculukta ana akıma girdi; modern LLM'lerin 'yardımcı, zararsız, dürüst' davranışının büyük bölümü bu süreçten gelir. İnsanlar model çıktıları arasında 'hangisi daha iyi' karşılaştırmaları yapar, bir ödül modeli bu tercihleri öğrenir, ardından PPO gibi RL algoritmalarıyla LLM bu ödülü en üst düzeye çıkaracak biçimde ayarlanır. Pahalı ve hassas bir süreç olduğu için topluluk hızla daha basit alternatiflere (DPO, RLAIF, Constitutional AI) yöneldi.