Probability Chain Rule

概念界定

概率链式法则将多个随机变量的联合概率分解为一系列条件概率的乘积。自回归语言模型正是利用这一法则，把整段文本序列的概率分解为逐 token 预测。

直接建模整句话的联合概率非常困难，因为可能的 token 序列数量巨大。链式法则提供了一种通用分解方式：只要逐步建模每个 token 在前文条件下的概率，就可以得到整个序列的概率。

对于随机变量序列 X_1, X_2, ..., X_T：

p(x_1, x_2, ..., x_T)
= Π_{t=1}^{T} p(x_t | x_<t)

展开写作：

p(x_1, x_2, x_3)
= p(x_1) p(x_2 | x_1) p(x_3 | x_1, x_2)

一段文本的概率可以看成“从左到右每一步都选中正确 token 的概率乘积”。这就是 next-token prediction 可以训练语言模型的概率基础。

句子：

I love AI

可以分解为：

p(I, love, AI)
= p(I) · p(love | I) · p(AI | I, love)

训练时，模型在每个位置预测下一个 token，并最大化这些条件概率。