基本信息
- Title: Proximal Policy Optimization Algorithms
- Source type: paper
- Related topic notes: PPO, RLHF, GRPO
TODO
- 阅读论文原文,整理 clipped surrogate objective、policy ratio 和 conservative update 的机制。
- 回填 PPO 在 RLHF 中与 KL penalty、value model、advantage estimation 的关系。
- 补充 PPO 与 TRPO 的差异,以及语言模型后训练中的工程化改造。