Absolute Position Embedding

Absolute Position Embedding 是最直接的位置编码方法：为序列中的每个绝对位置学习或定义一个位置向量，并把它加到 token embedding 上。它回答的问题是：“这个 token 位于第几个位置？”

基本形式

给定 token embedding：

e_{i} \in R^{d_{m o d e l}}

以及第 $i$ 个位置的位置向量：

p_{i} \in R^{d_{m o d e l}}

输入 Transformer 的初始表示为：

h_{i}^{(0)} = e_{i} + p_{i}

如果使用 learned absolute position embedding，所有 $p_{i}$ 组成一个可学习表：

P \in R^{L_{ma x} \times d_{m o d e l}}

其中 $L_{ma x}$ 是模型支持的最大位置数。

Attention 本身不天然知道顺序。把 position embedding 加到 token embedding 后，同一个 token 出现在不同位置会得到不同初始表示：

e_{dog} + p_{3} \neq = e_{dog} + p_{10}

这样后续 attention 和 FFN 就能利用位置差异。

早期 GPT、BERT 等模型都使用或接近这种路线。

Absolute position embedding 的主要问题是长度外推较弱。因为位置表只训练了 $1, \dots, L_{ma x}$ 范围内的位置，超过最大长度后没有自然定义的向量。即使扩展位置表，新位置也缺少训练。

它还更容易让模型记住绝对位置模式，而不是相对距离。例如“两个 token 相隔 3 个位置”在位置 10/13 和 300/303 上对应不同的绝对向量组合，模型需要自己学会这种相对关系。

方法	位置信息进入哪里	主要特点
Absolute Position Embedding	输入 embedding	简单、可学习、固定长度友好
RoPE	Q/K 旋转	相对距离进入 attention score
ALiBi	attention score bias	用距离偏置引入位置关系

现代 decoder-only LLM 更常用 RoPE 或其扩展，因为它和 query-key 匹配过程结合更紧密，也更适合长上下文扩展。