Entropy

概念界定

熵是随机变量不确定性的度量，也可以理解为事件自信息在整个概率分布下的期望。分布越均匀，熵通常越高；分布越集中，熵通常越低。

语言模型输出的是下一个 token 的概率分布。这个分布可能很确定，也可能很分散。熵提供了一种衡量模型在当前上下文下“不确定程度”的方式。

离散随机变量 X 的熵定义为：

H(X) = -Σ_x p(x) log p(x)

也可以写成自信息的期望：

H(X) = E_{x~p}[-log p(x)]

如果一个分布几乎把全部概率放在一个 token 上，模型很确定，熵低。如果概率分散在很多 token 上，模型不确定，熵高。

例如：

A: 0.95, B: 0.03, C: 0.02  -> 低熵
A: 0.34, B: 0.33, C: 0.33  -> 高熵

在生成任务中，如果某一步上下文是：

The capital of France is

模型可能对 Paris 给出很高概率，分布熵较低。

如果上下文是：

Once upon a time

后续合理 token 很多，分布可能更分散，熵更高。