概念界定
随机变量是把随机试验的结果映射为数值或符号对象的函数。在大模型中,token、标签、序列、采样结果和模型预测都可以从随机变量的角度理解。
背景与问题
语言生成不是一次性输出固定文本,而是逐步预测下一个 token。每个位置上的 token 都可以看作一个随机变量,模型要学习这些随机变量在上下文条件下的概率分布。
定义与记号
随机变量通常记为大写字母,例如:
X, Y, X_t它的一个具体取值用小写表示:
X = x
X_t = x_t在语言模型中,可以把第 t 个 token 表示为随机变量:
X_t ∈ Vocabulary给定前文 x_<t,模型估计:
p(X_t = x_t | X_<t = x_<t)直观解释
随机变量不是“随机的数”这么简单,而是对不确定结果的形式化表示。对于语言模型来说,下一个 token 不是唯一确定的:在同一个上下文后面,可能接不同 token,只是概率不同。
例如:
The capital of France is ____Paris 的概率应当很高,但模型仍然会给其他 token 分配较小概率。
基本性质
- 随机变量可以是离散的,也可以是连续的。
- NLP 中 token 通常是离散随机变量。
- Embedding 是 token 取值后的连续向量表示,不是 token 随机变量本身。
- 序列可以看作多个随机变量组成的随机过程。
示例
一句话可以表示为随机变量序列:
X_1, X_2, ..., X_T自回归语言模型逐步建模:
p(X_1, X_2, ..., X_T)并通过链式法则分解为多个条件概率。
常见误解
- 误解:随机变量必须是数字。
- 正确理解:随机变量可以表示类别,token 可以看作离散类别取值。
- 误解:模型生成时采样了 token,就说明模型内部所有东西都是随机的。
- 正确理解:模型前向计算通常是确定的,随机性主要来自解码采样策略。
- 误解:embedding 向量就是随机变量本身。
- 正确理解:token 是离散随机变量的取值,embedding 是该取值进入模型后的连续表示。