Linear Layer

概念界定

线性层是神经网络中最基本的可学习变换模块，通常将输入向量通过权重矩阵和偏置映射到新的表示空间。在大模型中，Q/K/V 投影、MLP 升维降维和输出头都依赖线性层。

大模型需要不断改变 token 的表示，使其更适合上下文理解和下一个 token 预测。线性层提供了最基本的表示投影能力，是 Transformer 中高频出现的计算模块。

线性层通常写作：

Y = XW + b

如果：

X: [B, T, D_in]
W: [D_in, D_out]
b: [D_out]

则：

Y: [B, T, D_out]

线性层可以理解为一个可学习的坐标变换。它把输入表示中的信息重新组合，投影到新的空间中。

Attention 中的 Q/K/V 投影：

Q = XW_q
K = XW_k
V = XW_v

MLP 中的升维与降维：

[B, T, D] -> [B, T, D_ff] -> [B, T, D]