Maximum Likelihood Estimation

概念界定

最大似然估计是一种参数估计原则：选择使观测数据出现概率最大的模型参数。在语言模型中，预训练通常可以理解为最大化训练语料中 token 序列的似然。

模型有大量参数 θ，我们需要一个原则来判断哪些参数更好。最大似然的想法是：如果一组参数能让训练数据更可能出现，那么这组参数就更符合数据分布。

给定数据集：

D = {x_1, x_2, ..., x_N}

最大似然目标：

θ* = argmax_θ Π_i p_θ(x_i)

通常取 log：

θ* = argmax_θ Σ_i log p_θ(x_i)

等价地，训练中常最小化负 log likelihood：

L(θ) = - Σ_i log p_θ(x_i)

最大似然就是让模型尽量“觉得训练数据合理”。如果训练数据中某个 token 在某个上下文后出现，模型就应该提高这个 token 在该上下文下的概率。

自回归语言模型中：

p_θ(x_1, ..., x_T) = Π_t p_θ(x_t | x_<t)

负 log likelihood：

L(θ) = - Σ_t log p_θ(x_t | x_<t)

这就是 next-token prediction 训练目标的概率解释。