DPO, Stanford'dan Rafailov ve arkadaşlarının 2023'te yayımladığı, RLHF'in pahalı ve kararsız RL adımını atlatmayı amaçlayan bir tercih optimizasyonu yöntemidir. Ayrı bir ödül modeli eğitip ardından PPO ile RL yapmak yerine, tercih verisinden doğrudan modelin parametrelerini güncelleyen kapalı-form bir hedef türetir; matematiksel olarak gizli bir ödül modeline implicit olarak optimize eder. Daha basit, daha kararlı ve hesaplama açısından daha ucuz olduğu için açık kaynak topluluğu hızla DPO'ya yöneldi; Zephyr, Mixtral-Instruct ve birçok modern post-training pipeline'ı bu yöntemi kullanır. RLHF'i tamamen ortadan kaldırmasa da, hizalama araç çantasında hızla en sık başvurulan ilk yöntem hâline geldi.
Dış Bağlantılar