基本信息
- Title: Deep Reinforcement Learning from Human Preferences
- Source type: paper
- Related topic notes: RLHF, Reward Model, PPO
TODO
- 阅读论文原文,整理从人类 pairwise preference 学习 reward function 的基本流程。
- 回填 preference data、reward learning、policy optimization 之间的关系。
- 对比后续语言模型 RLHF 中 reward model 的继承与变化。