基本信息
- Title: YaRN: Efficient Context Window Extension of Large Language Models
- Source type: paper
- Related topic notes: Long Context Training, YaRN, RoPE
TODO
- 阅读论文原文,整理 YaRN 的 RoPE extension 方法、训练效率主张和实验设置。
- 回填 selective interpolation、attention scaling 和长上下文 fine-tuning 的关键机制。
- 补充 YaRN 与 Position Interpolation、LongRoPE 的差异。