RLHF, bir LLM'i insan tercihlerine göre hizalamak için kullanılan, önce ödül modeli sonra pekiştirmeli öğrenme aşamalarından oluşan üç adımlı bir tekniktir. OpenAI'in 2017'deki ilk denemelerinden 2022'deki InstructGPT ve ChatGPT'ye uzanan yolculukta ana akıma girdi; modern LLM'lerin 'yardımcı, zararsız, dürüst' davranışının büyük bölümü bu süreçten gelir. İnsanlar model çıktıları arasında 'hangisi daha iyi' karşılaştırmaları yapar, bir ödül modeli bu tercihleri öğrenir, ardından PPO gibi RL algoritmalarıyla LLM bu ödülü en üst düzeye çıkaracak biçimde ayarlanır. Pahalı ve hassas bir süreç olduğu için topluluk hızla daha basit alternatiflere (DPO, RLAIF, Constitutional AI) yöneldi.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · İleri · 2017
RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme
İnsan tercihlerini ödül modeline dönüştürerek LLM'i bu ödüle göre optimize eden hizalama tekniği.
- EN — İngilizce karşılığı
- RLHF (Reinforcement Learning from Human Feedback)
- TR — Türkçe karşılığı
- RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme