Cross Entropy and KL Divergence

概念界定

交叉熵可以分解为真实分布自身的熵和真实分布到模型分布的 KL 散度。因此，在真实分布固定时，最小化交叉熵等价于最小化 KL(p || q)。

深度学习中常说“最小化交叉熵就是让模型分布接近真实分布”。这句话背后的信息论解释就是交叉熵与 KL 的分解关系。

交叉熵定义为：

H(p, q) = -Σ_x p(x) log q(x)

KL 散度定义为：

KL(p || q) = Σ_x p(x) log(p(x) / q(x))

展开 KL：

KL(p || q)
= Σ_x p(x) log p(x) - Σ_x p(x) log q(x)
= -H(p) + H(p, q)

因此：

H(p, q) = H(p) + KL(p || q)

交叉熵包含两部分：

训练时数据分布 p 固定，H(p) 不随模型参数变化。因此，优化模型只能降低 KL 部分。

在 next-token prediction 中，真实分布通常由数据样本给出。模型最小化：

-log q_θ(x_t | x_<t)

从分布角度看，就是让模型条件分布 q_θ(. | x_<t) 接近数据条件分布。