🍊 Latent Atlas 🍉

❯

❯

❯

Proximal Policy Optimization Algorithms

Proximal Policy Optimization Algorithms

2026年5月29日1分钟阅读

source
paper
reinforcement-learning
ppo

基本信息

Title: Proximal Policy Optimization Algorithms
Source type: paper
Related topic notes: PPO, RLHF, GRPO

TODO

阅读论文原文，整理 clipped surrogate objective、policy ratio 和 conservative update 的机制。
回填 PPO 在 RLHF 中与 KL penalty、value model、advantage estimation 的关系。
补充 PPO 与 TRPO 的差异，以及语言模型后训练中的工程化改造。

关系图谱

基本信息
TODO

反向链接

Papers
GRPO
Post-training
PPO
RLHF

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026