Probability Distribution

概念界定

概率分布描述随机变量在不同取值上的概率分配。在语言模型中，模型对下一个 token 的预测就是一个定义在词表上的离散概率分布。

大模型不是只输出一个 token，而是为词表中每个候选 token 计算一个概率。解码策略再根据这个分布选择或采样下一个 token。因此，理解分布是理解生成、多样性、置信度和训练损失的基础。

对于离散随机变量 X，概率分布可以写作：

p(X = x)

要求：

p(x) ≥ 0
Σ_x p(x) = 1

语言模型输出 logits 后，通过 softmax 得到分布：

logits: [V]
probabilities = softmax(logits): [V]

其中 V 是 vocabulary size。

概率分布可以理解为模型对所有候选 token 的“质量分配”。如果某个 token 概率很高，说明在当前上下文中模型认为它更合理；但这不等于它一定真实正确。

上下文：

The capital of France is

模型可能输出：

p(Paris) = 0.82
p(Lyon) = 0.03
p(the) = 0.01
...

贪心解码会选择概率最高的 Paris；采样解码则可能按概率随机选择。