基本信息
- Title: RoFormer: Enhanced Transformer with Rotary Position Embedding
- Source type: paper
- Related topic notes: RoPE, Positional Encoding, Attention
TODO
- 阅读论文原文,整理 Rotary Position Embedding 的旋转形式和相对位置性质。
- 回填 RoPE 作用于 Q/K、影响 attention score 而不是直接加到 token embedding 的机制。
- 对照 YaRN、Position Interpolation 和 LongRoPE,梳理 RoPE 长上下文扩展路线。