基本信息
- Title: Learning to summarize from human feedback
- Source type: paper
- Related topic notes: RLHF, Reward Model, On-policy KD
TODO
- 阅读论文原文,整理 summarization 场景中人类偏好、reward model 和 policy optimization 的流程。
- 回填 RLHF 在开放生成任务中优于纯 supervised learning 的证据与边界。
- 补充 human evaluation、reward over-optimization 和摘要质量指标之间的关系。