Self-Information

概念界定

自信息用于度量单个事件发生时带来的信息量，也可以理解为事件的“意外程度”。事件概率越低，发生时带来的信息量越大；事件概率越高，发生时带来的信息量越小。

语言模型训练和评估经常关心真实 token 对模型来说有多“意外”。如果模型给真实 token 分配高概率，那么这个 token 的负对数概率较低；如果模型给真实 token 分配低概率，那么它对模型来说很意外，损失也会更高。

事件 x 的自信息定义为：

I(x) = -log p(x)

如果使用以 2 为底的对数，单位是 bit；如果使用自然对数，单位是 nat。

自信息可以理解为“知道这件事发生后，我获得了多少信息”。一个几乎必然发生的事件没有太多信息量；一个很罕见的事件一旦发生，就会提供更多信息。

如果模型给真实 token 的概率是：

p(x_t | x_<t) = 0.8

则该 token 的 surprisal 较低。如果概率是：

p(x_t | x_<t) = 0.001

则该 token 对模型来说非常意外，训练损失会很大。