Conditional Probability

概念界定

条件概率描述在某个条件已经发生或已知的情况下，另一个事件发生的概率。在语言模型中，下一个 token 的概率总是在已有上下文条件下计算的。

自然语言具有强上下文依赖。同一个 token 在不同上下文中的合理性不同。语言模型的核心任务不是学习孤立 token 的概率，而是学习：给定前文后，下一个 token 应该如何分布。

条件概率定义为：

p(A | B) = p(A, B) / p(B)

其中 p(A | B) 表示在 B 已知的条件下，A 发生的概率。

自回归语言模型通常建模：

p(x_t | x_<t)

其中 x_<t 表示第 t 个 token 之前的所有上下文。

条件概率表达“上下文改变概率”。例如：

I deposited money in the ____
I sat by the river ____

同一个候选 token bank 在两个上下文中的概率不同。语言模型通过上下文 hidden state 来产生这个条件分布。

给定上下文：

x_<t = "The capital of France is"

模型估计：

p(X_t = "Paris" | x_<t)

这个概率应当远高于无条件情况下随机出现 Paris 的概率。