🍊 Latent Atlas 🍉

❯

❯

Probability

2025年12月13日5分钟阅读

概念界定

概率论研究不确定事件、随机变量、概率分布及其运算规则。在大模型和 NLP 中，概率论是理解语言建模、next-token prediction、采样生成、评估指标和不确定性的基础。

这一节不追求完整覆盖概率论课程，而是围绕语言模型中反复出现的概率概念建立基础。

背景与问题

语言模型本质上是在建模 token 序列的概率分布。给定上下文，模型输出的不是唯一答案，而是下一个 token 的概率分布。训练时，模型通过数据估计分布；推理时，模型从分布中选择或采样 token；评估时，我们用交叉熵、困惑度等指标衡量模型分布与真实数据分布的差异。

因此，概率论需要回答几个核心问题：

token、序列和预测结果如何被看作随机变量？
语言模型为什么写成条件概率 p(x_t | x_<t)？
softmax 输出的概率分布到底表示什么？
采样、temperature、top-k、top-p 如何改变生成行为？
训练 loss 和评估指标为什么常写成期望形式？
模型输出的概率能否直接等同于“置信度”？

知识结构

基本对象

随机变量 — token、序列、标签和模型输出的随机变量视角。
概率分布 — 离散分布、分类分布、模型预测分布。
联合分布与边缘分布 — 序列概率、变量关系和边缘化。

条件建模

条件概率 — 自回归语言模型的核心形式。
概率链式法则 — 将序列概率分解为逐 token 条件概率。
贝叶斯公式 — 后验、先验和证据的基本关系。

统计量与估计

期望与方差 — loss、风险、评估指标和采样估计的基础。
经验分布 — 训练数据如何近似真实分布。
最大似然估计 — 语言模型训练目标的概率解释。
蒙特卡罗方法 — 用随机样本近似期望、概率和评估指标。

生成与不确定性

采样 — 从概率分布中生成 token。
Temperature、Top-k 与 Top-p — 常见解码采样控制方法。
校准与不确定性 — 模型概率、置信度和可靠性的区别。

推荐阅读顺序

随机变量
概率分布
条件概率
概率链式法则
期望与方差
最大似然估计
蒙特卡罗方法
采样
校准与不确定性

与大模型主线的关系

预训练通常可以理解为最大化训练语料中 token 序列的似然。
交叉熵是最大似然训练在分类分布上的常见损失形式。
KL 散度衡量两个概率分布的差异，在对齐和分布约束中常出现。
KV Cache 服务于自回归条件概率分解下的高效逐 token 生成。
RAG 可以看作在外部证据条件下改变模型的生成分布。

常见误解

误解：语言模型输出的是确定答案。
- 正确理解：模型输出的是下一个 token 的概率分布，答案是解码策略从分布中得到的结果。
误解：概率最高的 token 总是最好。
- 正确理解：贪心选择可能稳定但缺乏多样性，采样策略会改变生成行为。
误解：模型概率等于真实置信度。
- 正确理解：模型可能过度自信或校准不足，概率需要结合校准和任务场景解释。

此文件夹下有13条笔记。

2025年12月21日
Calibration and Uncertainty
2025年12月21日
Maximum Likelihood Estimation
2025年12月21日
Temperature Top-k and Top-p
2025年12月20日
Bayes Rule
2025年12月20日
Empirical Distribution
2025年12月20日
Expectation and Variance
2025年12月20日
Monte Carlo Method
2025年12月20日
Sampling
2025年12月14日
Probability Chain Rule
2025年12月14日
Conditional Probability
2025年12月14日
Probability Distribution
2025年12月14日
Joint and Marginal Distributions
2025年12月14日
Random Variable

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026