SentencePiece

SentencePiece, Google'ın 2018'de yayımladığı, dile özel ön işleme adımı gerektirmeyen bir tokenleştirme kütüphanesidir. Boşluğu özel bir karakter ('▁') olarak ele alır, bu sayede Çince ve Japonca gibi kelime sınırları belirsiz dillerde de aynı şekilde çalışır ve tersine çevrilebilir tokenleştirme sağlar. İçinde hem BPE hem unigram dil modeli algoritmaları mevcuttur; T5, ALBERT, mT5 ve LLaMA gibi modeller bu kütüphane üzerine kuruludur. Çok dilli LLM eğitiminde fiilen standart hâline gelmiştir, çünkü Tokenization sürecini eğitim ve çıkarım arasında simetrik tutar.