Maskeli Dil Modelleme

Maskeli dil modelleme (MLM), 2018'de BERT ile popülerleşen bir eğitim hedefidir: bir cümledeki belirli Token'ler rastgele maskelenir ve modelin geriye kalan bağlamdan eksikleri tahmin etmesi istenir. Bu görev sayesinde model çift yönlü bağlam görür — soldaki ve sağdaki bilgiyi aynı anda kullanabilir — ki bu sınıflandırma, anlamsal arama ve Embedding üretiminde özellikle değerlidir. Encoder-only modeller MLM ile eğitilirken, GPT serisi gibi Decoder-only modeller Autoregressive hedefi kullanır. Üretken LLM çağında tek başına MLM modelleri eski popülerliğini yitirmiş olsa da, RoBERTa ve DeBERTa gibi modellerle birlikte hâlâ retrieval ve sınıflandırma boru hatlarında sessizce iş görmektedir.