基本信息

TODO

  • 阅读论文原文,整理 BPE 在 neural machine translation 中处理 rare words / open vocabulary 的动机。
  • 回填 subword units 如何在词级与字符级之间折中,以及它对 LLM tokenizer 设计的长期影响。
  • 补充 BPE 在多语言、代码和数学文本中的优势与边界。