Empirical Distribution

概念界定

经验分布是由有限样本数据集诱导出的概率分布。机器学习中无法直接获得真实数据分布，只能用训练数据的经验分布近似真实分布。

大模型训练语料只是世界文本分布的有限样本。模型在训练中看到的是经验分布，而不是完整真实分布。因此，数据质量、采样比例、去重、过滤和混合策略都会影响模型最终学到的分布。

给定数据集：

D = {x_1, x_2, ..., x_N}

经验分布可以写作：

p_emp(x) = (1/N) Σ_i 1[x = x_i]

训练目标通常近似为经验平均：

E_{x~p_data}[L(x)] ≈ (1/N) Σ_i L(x_i)

经验分布就是“数据集中出现什么，模型就更容易学到什么”。如果某类文本在训练集中比例很高，它会对训练目标产生更大影响；如果数据集中存在偏见、重复或噪声，模型也可能学习到这些模式。

如果训练语料中代码数据比例提高，模型可能在代码生成任务上表现更好，但也可能影响自然语言生成风格。这不是模型凭空产生的能力变化，而是经验分布改变后的结果。