KL Divergence

概念界定

KL 散度衡量当真实分布为 p，却使用另一个分布 q 进行近似时产生的额外信息代价。它常用于刻画两个概率分布之间的差异，但它不是严格意义上的距离。

大模型训练和对齐经常涉及“让一个分布接近另一个分布”。预训练希望模型分布接近数据分布，RLHF 希望策略模型提升偏好回报但不要偏离参考模型太远，蒸馏希望学生模型接近教师模型。KL 散度是这些问题中常见的数学工具。

离散分布 p 和 q 的 KL 散度定义为：

KL(p || q) = Σ_x p(x) log(p(x) / q(x))

也可写成：

KL(p || q) = E_{x~p}[log p(x) - log q(x)]

KL 散度衡量：如果数据实际来自 p，但你用 q 来编码或预测，会比使用 p 多付出多少额外代价。q 越接近 p，KL 越小。

两个方向的 KL 行为不同：

Forward KL: KL(p || q)
Reverse KL: KL(q || p)

直观上：

这个差异会影响变分推断、生成建模和策略优化中的行为。

RLHF 中常见 KL 惩罚形式：

reward_total = reward_model_score - β KL(π_θ || π_ref)

其中 π_θ 是当前策略模型，π_ref 是参考模型。KL 惩罚用于限制模型为了追求奖励而过度偏离原始语言分布。