Sinusoidal Position Encoding

Sinusoidal Position Encoding 是原始 Transformer 论文使用的固定位置编码方法。它不用学习位置表，而是用不同频率的正弦和余弦函数为每个位置生成向量，再加到 token embedding 上。

基本形式

设位置为 $p os$ ，维度索引为 $i$ ，模型维度为 $d_{m o d e l}$ 。常见形式为：

PE (p os, 2 i) = sin (\frac{p os}{1000 0 ^{2 i / d_{m o d e l}}})

PE (p os, 2 i + 1) = cos (\frac{p os}{1000 0 ^{2 i / d_{m o d e l}}})

然后与 token embedding 相加：

h_{p os}^{(0)} = e_{p os} + PE (p os)

偶数维使用 sine，奇数维使用 cosine；不同维度对应不同频率。

Sinusoidal encoding 的直觉是用多种波长同时表示位置：

这和 Fourier features 有相似直觉：用一组周期函数把标量位置映射到高维表示中。

因为 sinusoidal position encoding 是固定函数，不依赖有限大小的 learned table，所以可以为超过训练长度的位置计算编码。相比 learned absolute position embedding，它至少在形式上支持任意位置。

但这不等于模型一定能有效利用超长上下文。训练时没有见过的长度、attention 成本、数据分布和任务模式仍然会限制外推效果。

方法	参数	超出训练长度的位置	特点
Learned absolute position	可学习位置表	通常没有自然定义	适配训练分布，外推弱
Sinusoidal position	固定函数	可以计算	外推形式更自然，但不一定效果强

二者都把位置向量加到输入 embedding 上，因此位置信息进入 hidden states，而不是直接作用在 attention score 上。

RoPE 也使用频率和旋转思想，但作用位置不同。Sinusoidal encoding 生成一个位置向量加到 token embedding；RoPE 则对 Q/K 做位置相关旋转，使相对位置进入 query-key dot product。

因此 RoPE 与 attention 的结合更直接，也成为现代 decoder-only LLM 中更常见的位置机制。