基本信息
- Title: SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
- Source type: paper
- Related topic notes: Tokenizer, Data Mix
TODO
- 阅读论文原文,整理 SentencePiece 的 language-independent tokenization 设计。
- 回填 unigram language model、BPE、whitespace encoding、normalization 与 detokenization 机制。
- 补充 SentencePiece 对多语言预训练和无空格语言的意义。