概念界定
校准描述模型输出概率与真实正确率是否一致,不确定性描述模型对预测结果缺乏确定把握的程度。对大模型而言,概率高不一定代表回答可靠,概率低也不一定表示完全错误。
背景与问题
语言模型会输出 token 概率,但这些概率主要来自训练目标和模型分布,并不天然等同于人类意义上的置信度。模型可能在错误答案上非常自信,也可能在多个合理答案之间分散概率。
定义与记号
理想校准的含义:如果模型对一批预测都给出 80% 的置信度,那么这些预测中约 80% 应该是正确的。
形式化地,可以粗略理解为:
P(correct | confidence = 0.8) ≈ 0.8不确定性常见来源包括:
- 数据不足或训练分布外输入。
- 问题本身有多个合理答案。
- 模型知识冲突或上下文证据不足。
- 解码采样引入随机性。
直观解释
模型概率是“模型分布下某个 token 的相对可能性”,不是“这个回答在现实世界中正确的概率”。对于事实问答、医学、法律、金融等场景,这个区别尤其重要。
基本性质
- 模型可能过度自信,也可能过度保守。
- 校准需要在任务和数据分布上评估。
- 解码后的整段回答置信度不能简单等同于每个 token 概率的直观平均。
- RAG、工具调用和验证器可以降低部分不确定性,但不会自动保证校准。
示例
模型可能对错误事实给出流畅回答:
问题:某个不存在的论文是谁写的?
模型:给出一个看似合理但虚构的作者和年份。这种情况下,生成文本的局部 token 概率可能很高,但事实正确性并不高。
常见误解
- 误解:模型说得流畅就说明置信度高且正确。
- 正确理解:流畅性和事实正确性是不同维度。
- 误解:输出概率可以直接当作答案正确率。
- 正确理解:需要校准评估,尤其是分布外或高风险任务。
- 误解:RAG 一定能消除不确定性。
- 正确理解:检索质量、引用相关性和模型使用证据的能力都会影响结果。
相关概念
- 概率分布 — 模型输出概率的基础。
- 评测与 Benchmark — 校准和可靠性需要通过评测观察。
- RAG 检索增强生成 — 外部证据可以改变模型不确定性。