概念界定

校准描述模型输出概率与真实正确率是否一致,不确定性描述模型对预测结果缺乏确定把握的程度。对大模型而言,概率高不一定代表回答可靠,概率低也不一定表示完全错误。

背景与问题

语言模型会输出 token 概率,但这些概率主要来自训练目标和模型分布,并不天然等同于人类意义上的置信度。模型可能在错误答案上非常自信,也可能在多个合理答案之间分散概率。

定义与记号

理想校准的含义:如果模型对一批预测都给出 80% 的置信度,那么这些预测中约 80% 应该是正确的。

形式化地,可以粗略理解为:

P(correct | confidence = 0.8) ≈ 0.8

不确定性常见来源包括:

  • 数据不足或训练分布外输入。
  • 问题本身有多个合理答案。
  • 模型知识冲突或上下文证据不足。
  • 解码采样引入随机性。

直观解释

模型概率是“模型分布下某个 token 的相对可能性”,不是“这个回答在现实世界中正确的概率”。对于事实问答、医学、法律、金融等场景,这个区别尤其重要。

基本性质

  • 模型可能过度自信,也可能过度保守。
  • 校准需要在任务和数据分布上评估。
  • 解码后的整段回答置信度不能简单等同于每个 token 概率的直观平均。
  • RAG、工具调用和验证器可以降低部分不确定性,但不会自动保证校准。

示例

模型可能对错误事实给出流畅回答:

问题:某个不存在的论文是谁写的?
模型:给出一个看似合理但虚构的作者和年份。

这种情况下,生成文本的局部 token 概率可能很高,但事实正确性并不高。

常见误解

  • 误解:模型说得流畅就说明置信度高且正确。
    • 正确理解:流畅性和事实正确性是不同维度。
  • 误解:输出概率可以直接当作答案正确率。
    • 正确理解:需要校准评估,尤其是分布外或高风险任务。
  • 误解:RAG 一定能消除不确定性。
    • 正确理解:检索质量、引用相关性和模型使用证据的能力都会影响结果。

相关概念