LLM 学习所需的数学、概率、信息论、优化和神经网络基础。这里不追求数学大全,只沉淀理解大模型主线所必需的概念。
Sections
- Linear Algebra — 向量、矩阵、范数、矩阵乘法
- Probability — 随机变量、条件概率、概率分布、期望
- Information Theory — 熵、交叉熵、KL 散度、困惑度
- Optimization — 梯度下降、反向传播、Adam、学习率
- Neural Network Basics — Embedding、激活函数、归一化、Softmax
How to Use
- 先读
linear-algebra/和probability/,建立数学与分布建模基础。 - 再读
information-theory/,理解语言模型训练目标与评估指标。 - 然后读
optimization/,理解参数如何被训练出来。 - 最后读
neural-network-basics/,连接到 Transformer 结构。