Pekiştirmeli Öğrenme (Reinforcement Learning)

Bir ajanın ortamla etkileşip ödül sinyaline göre politika öğrendiği makine öğrenmesi paradigması.

EN — İngilizce karşılığı: Reinforcement Learning
TR — Türkçe karşılığı: Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme, bir ajanın ortamla etkileşip aldığı ödüle göre stratejisini güncellediği paradigmadır. Sutton ve Barto'nun 1980'lerdeki temel çalışmasıyla şekillendi; AlphaGo gibi sistemler ile geniş kitleye ulaştı. LLM çağında ise RLHF ve DPO gibi varyantlar üzerinden modellerin insan tercihlerine hizalanmasında kritik rol oynuyor. OpenAI'in OpenAI o1 ve DeepSeek R1 gibi Reasoning Models aileleri de RL üzerinde uzun düşünme yetenekleri kazanıyor.