Residual Connection

概念界定

残差连接是把子层输出与原始输入相加的结构，使网络学习的是对输入的增量更新，而不是完全重新生成表示。它是深层 Transformer 可训练性的关键结构之一。

随着网络加深，梯度传播和表示保持会变得困难。残差连接提供了一条直接的信息通路和梯度通路，使深层模型更容易优化。

基本形式：

y = x + F(x)

其中 F(x) 是某个子层，例如 Attention 或 FFN。

Pre-Norm Transformer 中常见：

x = x + Attention(Norm(x))
x = x + FFN(Norm(x))

残差连接让每一层不必从零开始构造新表示，而是在已有表示上做修改。模型可以选择保留原信息，也可以通过子层增加新信息。

如果 Attention 子层暂时学不到有用信息，残差结构仍允许：

x_new ≈ x

这比强迫每层完全重写表示更稳定。