Joint and Marginal Distributions

概念界定

联合分布描述多个随机变量共同取值的概率，边缘分布描述只关注其中一部分变量时的概率分布。它们是理解序列建模、隐变量、检索条件和多模态建模的基础。

语言通常不是单个 token 的孤立集合，而是多个 token、上下文、文档、图像或工具结果共同构成的随机结构。联合分布刻画这些变量之间的整体关系，边缘分布则允许我们只关注其中一部分变量。

联合分布：

p(X = x, Y = y)

边缘分布：

p(X = x) = Σ_y p(X = x, Y = y)

连续变量场景下，求和会变成积分。

联合分布回答“这些变量同时取这些值的概率是多少”。边缘分布回答“如果不关心另一个变量，只看当前变量的概率是多少”。边缘化可以理解为把不关心的变量所有可能情况加总掉。

如果 X 表示问题，D 表示检索到的文档，Y 表示答案，那么 RAG 可以粗略理解为在文档条件下建模：

p(Y | X, D)

如果文档 D 不确定，则可能需要考虑：

p(Y | X) = Σ_D p(Y | X, D) p(D | X)

这体现了检索结果如何影响生成分布。