基本信息

TODO

  • 阅读论文原文,整理 clipped surrogate objective、policy ratio 和 conservative update 的机制。
  • 回填 PPO 在 RLHF 中与 KL penalty、value model、advantage estimation 的关系。
  • 补充 PPO 与 TRPO 的差异,以及语言模型后训练中的工程化改造。