🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

SentencePiece

SentencePiece

2026年5月31日1分钟阅读

  • source
  • paper
  • tokenizer
  • sentencepiece
  • subword

基本信息

  • Title: SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
  • Source type: paper
  • Related topic notes: Tokenizer, Data Mix

TODO

  • 阅读论文原文,整理 SentencePiece 的 language-independent tokenization 设计。
  • 回填 unigram language model、BPE、whitespace encoding、normalization 与 detokenization 机制。
  • 补充 SentencePiece 对多语言预训练和无空格语言的意义。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Pretraining
  • Tokenizer

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026