基本信息
- Title: Neural Machine Translation of Rare Words with Subword Units
- Source type: paper
- Related topic notes: Tokenizer, Data Mix
TODO
- 阅读论文原文,整理 BPE 在 neural machine translation 中处理 rare words / open vocabulary 的动机。
- 回填 subword units 如何在词级与字符级之间折中,以及它对 LLM tokenizer 设计的长期影响。
- 补充 BPE 在多语言、代码和数学文本中的优势与边界。