Expectation and Variance

概念界定

期望描述随机变量在概率分布下的平均取值，方差描述随机变量围绕期望的波动程度。在机器学习中，训练目标、风险、评估指标和采样估计常以期望形式表达。

模型训练并不是只优化单个样本，而是希望在数据分布上整体表现更好。理论上，我们希望最小化真实数据分布下的期望损失；实践中，只能用训练集上的经验平均近似这个期望。

离散随机变量的期望：

E[X] = Σ_x x p(x)

函数的期望：

E[f(X)] = Σ_x f(x) p(x)

方差：

Var(X) = E[(X - E[X])^2]

机器学习中的期望风险：

R(θ) = E_{(x,y)~P_data}[L(f_θ(x), y)]

期望可以理解为“按概率加权的平均”。如果某些样本更常出现，它们对期望损失的影响就更大。方差则衡量结果是否稳定：方差大说明不同样本或不同采样结果之间波动明显。

训练集中一个 mini-batch 的平均 loss：

L_batch = (1/B) Σ_i L_i

它可以看作对真实期望损失的随机估计。batch size 越大，估计通常越稳定，但计算和显存成本也越高。