ALiBi,Attention with Linear Biases,是一种直接在 attention score 上加入距离相关线性偏置的位置机制。它不把位置向量加到 token embedding,也不旋转 Q/K,而是在 softmax 前修改 attention logits,使模型天然带有“距离越远,偏置越低”的归纳偏置。

基本思想

标准 attention score 为:

ALiBi 加入一个与相对距离有关的 bias:

在 causal language model 中,位置 只能看 的历史 token。ALiBi 通常对更远的历史位置施加更大的负偏置:

其中:

  • 是当前 token 与历史 token 的距离;
  • 是第 个 attention head 的 slope;
  • 不同 head 可以使用不同 slope,从而覆盖不同距离尺度。

直觉

ALiBi 的直觉是:近处 token 默认更相关,远处 token 需要更强的内容匹配才能被关注。它不是禁止远距离 attention,而是给远距离位置一个线性惩罚。

如果远处 token 非常重要,内容项 仍然可以抵消距离惩罚;如果内容相关性一般,模型会更偏向近处上下文。

与其他位置机制的区别

方法注入位置参数形式主要特点
Absolute Positioninput embeddinglearned table简单但长度受限
Sinusoidal Positioninput embeddingfixed function可计算任意位置
RoPEQ/K rotationrotation frequency相对位置进入 dot product
ALiBiattention score biashead-specific slope距离偏置直接,外推友好

ALiBi 更像给 attention 增加结构化先验:距离越远,基础分数越低。

长度外推

ALiBi 的一个重要优势是没有固定位置表,也不需要为每个绝对位置学习向量。推理到更长序列时,只要能计算距离 ,就可以继续生成 bias。

这使它在形式上更适合长度外推。但仍需注意:模型能处理更长位置,不代表一定能在更长上下文中完成复杂检索或推理。长上下文能力还依赖训练长度、数据分布、attention pattern 和推理系统。

设计取舍

优势代价
不需要位置 embedding table归纳偏置较强,默认惩罚远距离
直接作用于 attention score不像 RoPE 那样改变 Q/K 几何关系
形式上易于长度外推效果依赖 slope 设计和训练配置
实现相对简单现代主流 decoder-only LLM 更多采用 RoPE 路线

常见误解

  • 误解:ALiBi 禁止远距离注意力。 它只是降低远距离 score,重要远程 token 仍可被关注。
  • 误解:ALiBi 和 RoPE 做的是同一件事。 二者都提供位置信息,但 ALiBi 是 score bias,RoPE 是 Q/K 旋转。
  • 误解:ALiBi 外推好就等于长上下文理解强。 位置机制只是必要条件之一。
  • 误解:所有 head 使用同样 bias。 ALiBi 通常让不同 head 有不同 slope,以覆盖不同距离偏好。

相关概念

经典论文与资料