概念界定
线性代数研究向量、矩阵、线性空间、线性变换以及它们之间的代数结构。在深度学习和大模型中,线性代数不是孤立的数学背景,而是模型表示、参数计算、注意力机制、向量检索、低秩微调和数值稳定性的共同语言。
这一节只保留理解大模型主线所必需的线性代数内容,不追求完整覆盖传统线性代数课程。
背景与问题
大模型中的文本不会以自然语言形式直接参与计算,而是被转换为数值张量:token id 被映射为 embedding,序列被表示为矩阵,batch 被组织为高维张量,模型参数则表现为大量权重矩阵。模型训练和推理的核心过程,可以看作这些张量在不同线性变换、非线性函数和归一化操作之间流动。
因此,学习线性代数的目标不是背诵定理,而是解决几个实际问题:
- 如何读懂 hidden states、attention scores、logits 等张量的形状?
- 为什么 Transformer 中大量计算都可以归结为矩阵乘法?
- Attention 中的点积相似度到底在衡量什么?
- LoRA、量化、模型压缩为什么会频繁涉及低秩、范数和数值尺度?
- 为什么 shape 正确、数值稳定和表示空间理解对大模型工程同样重要?
知识结构
表示基础
- 向量、矩阵与张量 — 深度学习中的基本数据表示。
- 形状与维度 — batch、sequence length、hidden size、head dimension 等 shape 约定。
- 基与坐标 — embedding 空间、坐标表示和分布式语义表示。
核心运算
- 矩阵乘法 — 线性层、Q/K/V 投影、Attention 和 MLP 的核心计算。
- 内积与相似度 — 点积、余弦相似度、attention score 和向量检索。
- 逐元素运算与广播 — bias、mask、gate、residual 和 normalization 中的基础规则。
表示变换与压缩
尺度与稳定性
推荐阅读顺序
与大模型主线的关系
- Attention 机制 依赖 Q/K/V 投影、点积相似度、矩阵乘法和 shape 变换。
- Transformer 可以理解为张量表示、线性变换、非线性变换和残差结构的组合。
- FSDP 分布式训练 需要理解参数、梯度、优化器状态和激活张量的形状与切分。
- 量化 依赖数值范围、范数、误差和低精度表示。
- RAG 的向量检索依赖 embedding 空间、相似度度量和向量归一化。
常见误解
- 误解:线性代数只是训练前要补的数学课。
- 正确理解:它贯穿模型结构、训练、推理和应用系统,是读懂大模型计算过程的基础语言。
- 误解:掌握公式就等于理解线性代数在模型里的作用。
- 正确理解:更重要的是能把公式、shape、代码和模型模块对应起来。
- 误解:每个线性代数概念都需要深入证明。
- 正确理解:这个知识库优先服务大模型理解,证明只在能澄清概念时补充。