Sliding Window Attention

Sliding Window Attention 是一种局部 attention 机制。它限制每个 token 只关注附近窗口内的 token，而不是完整历史上下文。它的目标是降低长序列训练和推理中的 attention 计算、显存和 KV Cache 压力。

基本形式

在标准 causal attention 中，第 $t$ 个 token 可以关注所有历史 token：

x_{1}, \dots, x_{t}

Sliding window attention 只允许它关注最近 $w$ 个 token：

x_{m a x (1, t - w + 1)}, \dots, x_{t}

其中 $w$ 是 window size。

Mask 形式可以理解为：

A_{t j} = 0 if j > t or j < t - w + 1

这样每个 token 的可见范围从 $O (T)$ 降到 $O (w)$ 。

标准 full attention 对序列长度 $T$ 的 score matrix 是：

T \times T

复杂度约为：

O (T^{2} d)

Sliding window attention 中，每个 token 只关注 $w$ 个位置，复杂度变为：

O (Tw d)

当 $w ≪ T$ 时，长序列成本显著降低。训练时可以减少 attention activation；推理时也可以只保留或读取窗口内的 K/V。

Sliding window 限制的是单层直接可见范围，但多层堆叠可以扩大有效感受野。假设每层窗口大小为 $w$ ，经过多层后，信息可以逐层向前传播。

不过这种传播不是免费的：

因此 sliding window 常与 global attention、稀疏 attention、压缩记忆、retrieval 或局部/全局混合策略结合。

机制	可见范围	成本	长距离能力
Full causal attention	全部历史 token	高， $O (T^{2})$	直接访问远处 token
Sliding window attention	最近 $w$ 个 token	低， $O (Tw)$	依赖层间传播或额外机制

Sliding window 的优势是成本可控，代价是全局信息访问能力变弱。

在 decoder-only 推理中，如果模型的 attention pattern 只需要最近窗口，系统可以只保留或只读取窗口内 K/V，从而降低长上下文 decode 的显存和带宽压力。

但具体实现要看模型是否所有层都使用窗口注意力，以及是否有周期性 full attention / global attention 层。如果部分层仍需要全局 K/V，系统就不能简单丢弃全部窗口外缓存。

Sliding window attention 适合：

它不适合单独承担所有长程依赖，尤其是需要跨文档检索、远距离多跳推理或精确引用远处证据的任务。