WordPiece, Google'ın 2016'da Japonca-Korece sesli arama sistemi için geliştirdiği, sonra BERT ile yaygınlaşan bir alt-kelime tokenleştirme algoritmasıdır. BPE'ye benzer şekilde küçük birimleri birleştirerek sözlük oluşturur, fakat hangi çiftin birleştirileceğine sıklığa değil eğitim verisi üzerindeki olabilirlik artışına bakarak karar verir. Kelime başlangıcı olmayan parçaları '##' ön ekiyle işaretler — örneğin 'tokenleştirme' kelimesi 'token', '##leş', '##tirme' gibi parçalara ayrılabilir. BERT, DistilBERT ve birçok Google tabanlı Transformer varyantında WordPiece görmek mümkündür; günümüzde yeni LLM'lerde yerini büyük ölçüde SentencePiece ve bayt seviyeli BPE'ye bırakmıştır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Orta · 2016
WordPiece
Google'ın BERT için kullandığı, BPE'ye benzer ama olasılık tabanlı çalışan alt-kelime algoritması.
- EN — İngilizce karşılığı
- WordPiece
- TR — Türkçe karşılığı
- WordPiece