概念界定
概率分布描述随机变量在不同取值上的概率分配。在语言模型中,模型对下一个 token 的预测就是一个定义在词表上的离散概率分布。
背景与问题
大模型不是只输出一个 token,而是为词表中每个候选 token 计算一个概率。解码策略再根据这个分布选择或采样下一个 token。因此,理解分布是理解生成、多样性、置信度和训练损失的基础。
定义与记号
对于离散随机变量 X,概率分布可以写作:
p(X = x)要求:
p(x) ≥ 0
Σ_x p(x) = 1语言模型输出 logits 后,通过 softmax 得到分布:
logits: [V]
probabilities = softmax(logits): [V]其中 V 是 vocabulary size。
直观解释
概率分布可以理解为模型对所有候选 token 的“质量分配”。如果某个 token 概率很高,说明在当前上下文中模型认为它更合理;但这不等于它一定真实正确。
基本性质
- 分布必须非负且总和为 1。
- 分布可以尖锐,也可以平坦。
- softmax 会把任意实数 logits 转换为概率分布。
- 分布的形状会影响生成结果的确定性和多样性。
示例
上下文:
The capital of France is模型可能输出:
p(Paris) = 0.82
p(Lyon) = 0.03
p(the) = 0.01
...贪心解码会选择概率最高的 Paris;采样解码则可能按概率随机选择。
常见误解
- 误解:概率最高的 token 就是模型“知道”的答案。
- 正确理解:它只是当前模型分布下最可能的输出。
- 误解:softmax 后的概率天然可靠。
- 正确理解:模型可能未校准,概率大小不一定等于真实正确率。
- 误解:分布越尖锐越好。
- 正确理解:尖锐分布更确定,但可能降低多样性并放大过度自信。