基本信息

TODO

  • 阅读论文原文,整理 summarization 场景中人类偏好、reward model 和 policy optimization 的流程。
  • 回填 RLHF 在开放生成任务中优于纯 supervised learning 的证据与边界。
  • 补充 human evaluation、reward over-optimization 和摘要质量指标之间的关系。