Parçalama, uzun belgeleri RAG için anlamlı, Embedding üretmeye uygun boyutta parçalara bölme işlemidir. Çok küçük parçalar bağlamı kırpar, çok büyük parçalar ise alakasız bilgiyle Context Window'u şişirir; tipik aralık 256-1500 Token civarındadır. Strateji seçimi sonuca dramatik etki eder: sabit-pencere, Recursive Splitter, cümle/paragraf sınırı duyarlı bölme ya da Semantic Chunking sıklıkla denenen yaklaşımlardır. "Chunk overlap" parametresi ise sınırda kaybolan bağlamı azaltmak için iki parça arasında pay bırakır — RAG kalitesini büyük ölçüde belirleyen ihmal edilen bir tasarım kararıdır.
MEVZU N°124ISTANBULYEAR I — VOL. III
Sözlük · Başlangıç · 2022
Parçalama (Chunking)
Belgeleri RAG için anlamlı, sınırlı boyutlu parçalara bölme işlemi.
- EN — İngilizce karşılığı
- Chunking
- TR — Türkçe karşılığı
- Parçalama (Chunking)