概念界定
经验分布是由有限样本数据集诱导出的概率分布。机器学习中无法直接获得真实数据分布,只能用训练数据的经验分布近似真实分布。
背景与问题
大模型训练语料只是世界文本分布的有限样本。模型在训练中看到的是经验分布,而不是完整真实分布。因此,数据质量、采样比例、去重、过滤和混合策略都会影响模型最终学到的分布。
定义与记号
给定数据集:
D = {x_1, x_2, ..., x_N}经验分布可以写作:
p_emp(x) = (1/N) Σ_i 1[x = x_i]训练目标通常近似为经验平均:
E_{x~p_data}[L(x)] ≈ (1/N) Σ_i L(x_i)直观解释
经验分布就是“数据集中出现什么,模型就更容易学到什么”。如果某类文本在训练集中比例很高,它会对训练目标产生更大影响;如果数据集中存在偏见、重复或噪声,模型也可能学习到这些模式。
基本性质
- 样本越多,经验分布通常越能近似真实分布。
- 数据不是独立同分布时,经验分布可能带有强偏差。
- 去重和过滤会改变经验分布。
- 数据混合比例会影响模型能力分布和行为偏好。
示例
如果训练语料中代码数据比例提高,模型可能在代码生成任务上表现更好,但也可能影响自然语言生成风格。这不是模型凭空产生的能力变化,而是经验分布改变后的结果。
常见误解
- 误解:数据越多一定越好。
- 正确理解:数据质量、覆盖范围、去重和分布比例同样重要。
- 误解:训练数据只是“材料”,不会定义模型行为。
- 正确理解:训练数据的经验分布直接影响模型学到的概率分布。
- 误解:评测集表现代表所有真实场景。
- 正确理解:评测集也是经验分布,可能无法覆盖真实使用分布。