概念界定
联合分布描述多个随机变量共同取值的概率,边缘分布描述只关注其中一部分变量时的概率分布。它们是理解序列建模、隐变量、检索条件和多模态建模的基础。
背景与问题
语言通常不是单个 token 的孤立集合,而是多个 token、上下文、文档、图像或工具结果共同构成的随机结构。联合分布刻画这些变量之间的整体关系,边缘分布则允许我们只关注其中一部分变量。
定义与记号
联合分布:
p(X = x, Y = y)边缘分布:
p(X = x) = Σ_y p(X = x, Y = y)连续变量场景下,求和会变成积分。
直观解释
联合分布回答“这些变量同时取这些值的概率是多少”。边缘分布回答“如果不关心另一个变量,只看当前变量的概率是多少”。边缘化可以理解为把不关心的变量所有可能情况加总掉。
基本性质
- 联合分布包含变量之间的依赖关系。
- 边缘分布会丢失与被边缘化变量相关的信息。
- 条件分布可以由联合分布和边缘分布得到。
- 多模态模型和 RAG 都可以从联合变量建模的角度理解。
示例
如果 X 表示问题,D 表示检索到的文档,Y 表示答案,那么 RAG 可以粗略理解为在文档条件下建模:
p(Y | X, D)如果文档 D 不确定,则可能需要考虑:
p(Y | X) = Σ_D p(Y | X, D) p(D | X)这体现了检索结果如何影响生成分布。
常见误解
- 误解:边缘分布只是联合分布的简化写法。
- 正确理解:边缘化会把部分变量的信息加总掉,可能损失依赖结构。
- 误解:语言模型只需要单 token 分布。
- 正确理解:模型训练和生成都隐含对整个序列联合分布的建模。
- 误解:加入更多条件变量一定更好。
- 正确理解:条件变量质量、相关性和噪声都会影响最终分布。
相关概念
- 条件概率 — 条件分布可由联合和边缘分布定义。
- 概率链式法则 — 序列联合概率的分解方式。
- RAG 检索增强生成 — 条件变量改变生成分布的应用。