Matrix Multiplication

概念界定

矩阵乘法是将一个矩阵的行与另一个矩阵的列进行内积，并生成新矩阵的运算。在大模型中，线性层、Q/K/V 投影、Attention score、MLP 和输出 logits 都大量依赖矩阵乘法。

大模型的大部分计算量来自矩阵乘法。GPU、TPU、Tensor Core、FlashAttention、量化和张量并行等优化，很多都围绕如何更快、更省地执行大规模矩阵乘法展开。因此，理解矩阵乘法不仅是数学基础，也是理解大模型系统性能的入口。

若：

A ∈ R^{m×n}
B ∈ R^{n×p}

则：

C = A B ∈ R^{m×p}

其中：

C_{ij} = Σ_k A_{ik} B_{kj}

shape 规则：

[m, n] @ [n, p] -> [m, p]

中间维度 n 必须一致。

矩阵乘法可以理解为批量计算多个向量之间的内积，也可以理解为把输入表示投影到新的坐标空间。神经网络中的权重矩阵不是静态查表，而是一个可学习的表示变换。

线性层：

X: [B, T, D]
W: [D, D_out]
Y = X W: [B, T, D_out]

Attention score：

Q:   [B, H, T, Dh]
K^T: [B, H, Dh, T]
S = QK^T: [B, H, T, T]

MLP：

[B, T, D] -> [B, T, D_ff] -> [B, T, D]