Negative Log-Likelihood

概念界定

负对数似然是最大似然估计中的常见损失形式，表示模型给真实观测数据分配的概率有多低。概率越高，负对数似然越小；概率越低，负对数似然越大。

最大化概率乘积在数值上不方便，多个小概率相乘容易下溢。因此训练中通常最大化 log likelihood，或等价地最小化 negative log likelihood。

给定样本 x，模型概率为 p_θ(x)，负对数似然为：

NLL(x) = -log p_θ(x)

对于序列：

NLL(x_1, ..., x_T) = -Σ_t log p_θ(x_t | x_<t)

负对数似然就是“真实样本对模型来说有多意外”。模型越相信真实样本，NLL 越低；模型越不相信真实样本，NLL 越高。

如果模型给真实 token 的概率为：

p_θ(y | x) = 0.8

则：

NLL = -log 0.8

如果概率为：

p_θ(y | x) = 0.01

则 NLL 明显更大。