基本信息

TODO

  • 阅读论文原文,整理从人类 pairwise preference 学习 reward function 的基本流程。
  • 回填 preference data、reward learning、policy optimization 之间的关系。
  • 对比后续语言模型 RLHF 中 reward model 的继承与变化。