Sampling

概念界定

采样是从概率分布中随机抽取具体取值的过程。在语言模型推理中，采样表示根据模型给出的下一个 token 概率分布选择实际输出 token。

语言模型每一步输出的是词表上的概率分布，而不是直接输出唯一 token。如何从这个分布得到最终文本，是解码策略的问题。采样让生成具有多样性，但也会引入随机性和不稳定性。

如果模型给出分布：

p_θ(X_t | x_<t)

采样就是从这个分布中抽取：

x_t ~ p_θ(X_t | x_<t)

然后把 x_t 接到上下文后继续下一步生成。

采样类似按概率抽签。概率高的 token 更容易被选中，但概率低的 token 也有机会出现。这和贪心解码不同，贪心解码每次都选择概率最高的 token。

假设模型输出：

p(Paris) = 0.70
p(Lyon) = 0.10
p(Marseille) = 0.05
p(other) = 0.15

采样通常会选中 Paris，但仍有一定概率选中其他 token。