Post-training, Pre-training sonrası 'ham' bir LLM'i kullanışlı, güvenli ve talimat takip eden bir asistana dönüştüren tüm aşamaların ortak adıdır. Tipik olarak denetimli ince ayar (SFT), RLHF, DPO ya da Constitutional AI tarzı sentetik geri bildirim aşamalarını kapsar; OpenAI'in InstructGPT'si ve Anthropic'in HH (Helpful & Harmless) hattı bu pratiklerin standart referansları sayılır. Frontier laboratuvarlarında günümüzde post-training, model kalitesindeki nihai farkın büyük bölümünün belirlendiği yer hâline gelmiştir. Synthetic Data üretimi ve değerlendirme döngüleri burada yoğun şekilde kullanılır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2022
Sonrası-Eğitim (Post-training)
Ön eğitim sonrası modeli kullanışlı, güvenli ve talimat takip eden bir asistana dönüştüren faz.
- EN — İngilizce karşılığı
- Post-training
- TR — Türkçe karşılığı
- Sonrası-Eğitim