BPE — Byte-Pair Encoding

BPE, ilk olarak 1994'te veri sıkıştırma için önerilen, Sennrich ve arkadaşlarının 2015'te nöral makine çevirisine uyarladığı bir alt-kelime tokenleştirme algoritmasıdır. Eğitim metnindeki en sık görülen karakter çiftlerini adım adım birleştirerek belirli boyutta bir sözlük oluşturur; böylece sık kelimeler tek Token olur, nadir kelimeler ise küçük parçalara bölünür. GPT serisi başta olmak üzere pek çok modern LLM, BPE veya onun bayt seviyesinde çalışan varyantını kullanır; bu sayede hiç görülmemiş kelimeleri ve emojiyi bile temsil edebilir. Tokenization dünyasındaki en yerleşik algoritmadır ve WordPiece ile SentencePiece'in tasarım kararlarını da büyük ölçüde şekillendirmiştir.