Mutual Information

概念界定

互信息度量一个随机变量包含了多少关于另一个随机变量的信息。它可以理解为：知道 X 后，Y 的不确定性减少了多少。

在 NLP 和表示学习中，我们经常关心上下文、标签、文档、图像或隐藏表示之间共享了多少信息。互信息提供了一种理论语言，用于描述变量之间的信息关联。

互信息定义为：

I(X; Y) = H(Y) - H(Y | X)

也可以写成：

I(X; Y) = KL(p(x, y) || p(x)p(y))

这表示联合分布与独立分布之间的差异。

如果知道 X 后，Y 的不确定性大幅降低，那么 X 和 Y 的互信息高。如果知道 X 对预测 Y 没有帮助，那么互信息为 0。

在语言模型中，前文上下文 X_<t 与下一个 token X_t 通常有互信息。上下文越能减少对下一个 token 的不确定性，互信息越高。

在 RAG 中，检索文档 D 如果真的与答案 Y 相关，那么 D 应该提供关于 Y 的信息。