Random Variable

概念界定

随机变量是把随机试验的结果映射为数值或符号对象的函数。在大模型中，token、标签、序列、采样结果和模型预测都可以从随机变量的角度理解。

语言生成不是一次性输出固定文本，而是逐步预测下一个 token。每个位置上的 token 都可以看作一个随机变量，模型要学习这些随机变量在上下文条件下的概率分布。

随机变量通常记为大写字母，例如：

X, Y, X_t

它的一个具体取值用小写表示：

X = x
X_t = x_t

在语言模型中，可以把第 t 个 token 表示为随机变量：

X_t ∈ Vocabulary

给定前文 x_<t，模型估计：

p(X_t = x_t | X_<t = x_<t)

随机变量不是“随机的数”这么简单，而是对不确定结果的形式化表示。对于语言模型来说，下一个 token 不是唯一确定的：在同一个上下文后面，可能接不同 token，只是概率不同。

例如：

The capital of France is ____

Paris 的概率应当很高，但模型仍然会给其他 token 分配较小概率。

一句话可以表示为随机变量序列：

X_1, X_2, ..., X_T

自回归语言模型逐步建模：

p(X_1, X_2, ..., X_T)

并通过链式法则分解为多个条件概率。