Linear Transformation

概念界定

线性变换是保持向量加法和数乘结构的映射，通常可以由矩阵表示。在神经网络中，线性层、Q/K/V 投影、MLP 投影和输出分类头都可以理解为可学习的表示空间变换。

大模型的每一层都在不断改写 token 的表示。理解线性变换，可以把权重矩阵从“参数表”理解为“表示空间的变换规则”：它决定哪些方向被放大、压缩、组合或投影到新的空间中。

线性变换 T 满足：

T(x + y) = T(x) + T(y)
T(αx) = αT(x)

矩阵形式：

y = W x

深度学习中常见线性层写作：

Y = X W + b

严格说，加入 bias 后是仿射变换；但工程语境中通常仍称为 linear layer。

线性变换可以旋转、拉伸、压缩、剪切或投影向量空间。训练过程就是调整这些变换，使 token 表示逐层变得更适合预测、分类、检索或生成。

Attention 中的 Q/K/V 投影：

Q = X W_q
K = X W_k
V = X W_v

它们通常来自同一个输入 X，但被投影到不同空间：

MLP 中的升维和降维：

X: [B, T, D]
XW_up: [B, T, D_ff]
XW_down: [B, T, D]