🍊 Latent Atlas 🍉

❯

❯

❯

Deep Reinforcement Learning from Human Preferences

Deep Reinforcement Learning from Human Preferences

2026年5月29日1分钟阅读

source
paper
rlhf
reward-model
preference-learning

基本信息

Title: Deep Reinforcement Learning from Human Preferences
Source type: paper
Related topic notes: RLHF, Reward Model, PPO

TODO

阅读论文原文，整理从人类 pairwise preference 学习 reward function 的基本流程。
回填 preference data、reward learning、policy optimization 之间的关系。
对比后续语言模型 RLHF 中 reward model 的继承与变化。

关系图谱

基本信息
TODO

反向链接

Papers
DPO
Post-training
Reward Model
RLHF

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026