基本信息
- Title: Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation
- Source type: paper
- Related topic notes: ALiBi, Positional Encoding, Long-context Training
TODO
- 阅读论文原文,整理 ALiBi 的 head-specific linear attention bias 机制。
- 回填 ALiBi 与 absolute position embedding、sinusoidal position encoding、RoPE 的差异。
- 梳理长度外推实验与适用边界。