tag.detailKicker
#training
tag.detailSubtitle
tag.wikiSection
Sentetik Veri (Synthetic Data)
Gerçek veri yerine veya yanında, başka bir model tarafından üretilen eğitim verisidir.
- EN
- Synthetic Data
- TR
- Sentetik Veri
RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme
İnsan tercihlerini ödül modeline dönüştürerek LLM'i bu ödüle göre optimize eden hizalama tekniği.
- EN
- RLHF (Reinforcement Learning from Human Feedback)
- TR
- RLHF — İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme
LoRA (Low-Rank Adaptation)
Modelin tüm ağırlıklarını değil, küçük düşük-mertebeli matrisleri eğitip bellek maliyetini düşüren ince ayar yöntemi.
- EN
- LoRA (Low-Rank Adaptation)
- TR
- LoRA (Düşük-Mertebeli Adaptasyon)
DPO — Doğrudan Tercih Optimizasyonu
RLHF'in karmaşık RL adımı olmadan, tercih verisinden doğrudan model güncellemesi yapan yöntem.
- EN
- DPO (Direct Preference Optimization)
- TR
- DPO — Doğrudan Tercih Optimizasyonu
Ön Eğitim (Pre-training)
Modelin trilyonlarca tokenlık genel amaçlı veriden temel dil yetisini kazandığı ilk eğitim fazı.
- EN
- Pre-training
- TR
- Ön Eğitim
Maskeli Dil Modelleme
Cümlede bazı tokenleri maskeleyip modelin onları tahmin etmesini öğrettiği eğitim görevi.
- EN
- Masked Language Modeling
- TR
- Maskeli Dil Modelleme
MFU — Model FLOPs Kullanımı
Modelin teorik tepe FLOPs'unun ne kadarını fiilen kullanabildiğini ölçen verimlilik metriği.
- EN
- Model FLOPs Utilization (MFU)
- TR
- Model FLOPs Kullanımı (MFU)
Sonrası-Eğitim (Post-training)
Ön eğitim sonrası modeli kullanışlı, güvenli ve talimat takip eden bir asistana dönüştüren faz.
- EN
- Post-training
- TR
- Sonrası-Eğitim
İnce Ayar (Fine-tuning)
Önceden eğitilmiş bir modeli daha küçük, hedefli veriyle belirli bir göreve uyarlama.
- EN
- Fine-tuning
- TR
- İnce Ayar (Fine-tuning)
QLoRA
Tek bir tüketici GPU'sunda 65B modelleri ince ayar yapmayı mümkün kılan, kuantizasyonla birleşmiş LoRA varyantı.
- EN
- QLoRA
- TR
- QLoRA