Cross Entropy

概念界定

交叉熵衡量当真实数据服从分布 p，却使用模型分布 q 来编码或预测时的平均代价。在深度学习中，交叉熵是分类任务和 next-token prediction 最常见的训练损失之一。

语言模型训练时，真实数据给出了每个位置上的目标 token。模型输出的是词表上的概率分布。我们需要一个损失函数，让模型给真实 token 更高概率，同时惩罚给真实 token 低概率的情况。交叉熵正好提供了这样的目标。

真实分布 p 和模型分布 q 的交叉熵定义为：

H(p, q) = -Σ_x p(x) log q(x)

如果真实标签是 one-hot 分布，即真实 token 为 y，则交叉熵变为：

H(p, q) = -log q(y)

这就是分类任务中的 negative log likelihood。

交叉熵可以理解为：真实答案出现时，模型有多意外。如果模型给真实 token 的概率高，-log q(y) 小；如果概率低，损失大。

给定上下文：

The capital of France is

真实下一个 token 是 Paris。如果模型给出：

q(Paris) = 0.9

损失较小：

-log 0.9

如果模型给出：

q(Paris) = 0.01

损失很大：

-log 0.01

自回归语言模型通常最小化每个位置的交叉熵：

L = -Σ_t log q_θ(x_t | x_<t)

这等价于最大化训练序列在模型下的似然。