概念界定

联合分布描述多个随机变量共同取值的概率,边缘分布描述只关注其中一部分变量时的概率分布。它们是理解序列建模、隐变量、检索条件和多模态建模的基础。

背景与问题

语言通常不是单个 token 的孤立集合,而是多个 token、上下文、文档、图像或工具结果共同构成的随机结构。联合分布刻画这些变量之间的整体关系,边缘分布则允许我们只关注其中一部分变量。

定义与记号

联合分布:

p(X = x, Y = y)

边缘分布:

p(X = x) = Σ_y p(X = x, Y = y)

连续变量场景下,求和会变成积分。

直观解释

联合分布回答“这些变量同时取这些值的概率是多少”。边缘分布回答“如果不关心另一个变量,只看当前变量的概率是多少”。边缘化可以理解为把不关心的变量所有可能情况加总掉。

基本性质

  • 联合分布包含变量之间的依赖关系。
  • 边缘分布会丢失与被边缘化变量相关的信息。
  • 条件分布可以由联合分布和边缘分布得到。
  • 多模态模型和 RAG 都可以从联合变量建模的角度理解。

示例

如果 X 表示问题,D 表示检索到的文档,Y 表示答案,那么 RAG 可以粗略理解为在文档条件下建模:

p(Y | X, D)

如果文档 D 不确定,则可能需要考虑:

p(Y | X) = Σ_D p(Y | X, D) p(D | X)

这体现了检索结果如何影响生成分布。

常见误解

  • 误解:边缘分布只是联合分布的简化写法。
    • 正确理解:边缘化会把部分变量的信息加总掉,可能损失依赖结构。
  • 误解:语言模型只需要单 token 分布。
    • 正确理解:模型训练和生成都隐含对整个序列联合分布的建模。
  • 误解:加入更多条件变量一定更好。
    • 正确理解:条件变量质量、相关性和噪声都会影响最终分布。

相关概念