RLHF

RLHF，Reinforcement Learning from Human Feedback，是用人类偏好数据训练 reward signal，并用强化学习优化语言模型策略的后训练方法。它的目标不是让模型复现单个参考答案，而是在开放生成空间中提高人类更偏好的回答概率。

在现代 assistant 训练中，RLHF 通常指一条 pipeline：先进行 SFT 得到可用初始 policy，再训练 Reward Model，最后用 PPO 或其他 policy optimization 方法更新模型，同时用 KL penalty 限制模型偏离 reference model。

目标与问题

语言模型预训练和 SFT 都主要依赖 maximum likelihood。这个目标适合学习数据分布，却无法充分表达“回答 A 比回答 B 更好”：

一个 prompt 可以有多个正确回答；
标准答案未必比模型生成的其他答案更好；
人类偏好涉及帮助性、真实性、安全性、简洁性、语气和上下文适配；
开放任务很难构造唯一 label；
SFT 不能直接惩罚“看似合理但用户不喜欢”的候选。

RLHF 将问题改写为：在给定 prompt 分布下，训练一个 policy $π_{θ} (y ∣ x)$ ，使生成回答获得更高 reward，同时不要偏离原始语言模型太远。

InstructGPT Pipeline

经典 InstructGPT 流程包括三步：

Supervised Fine-Tuning：用人工示范数据训练 SFT model，使 base model 初步学会按照 instruction 回答。
Reward Model Training：对同一 prompt 采样多个模型回答，由人类标注排序或偏好，训练 reward model。
PPO Policy Optimization：用 reward model 对 policy rollout 打分，再通过 PPO 更新 policy，并加入 KL penalty 约束 policy 不要过度偏离 SFT reference model。

这条路线的关键思想是分离“示范”和“偏好”：示范数据告诉模型可接受回答长什么样；偏好数据告诉模型多个可接受回答之间谁更好。

训练目标

RLHF 常见目标可以写成：

θ max E_{x \sim D, y \sim π_{θ} (\cdot ∣ x)} [r_{ϕ} (x, y) - β KL (π_{θ} (\cdot ∣ x) ∥ π_{ref} (\cdot ∣ x))]

其中：

$π_{θ}$ 是当前 policy；
$π_{ref}$ 是 reference model，通常是 SFT model；
$r_{ϕ}$ 是 reward model；
$β$ 控制 reward maximization 与 distribution constraint 的平衡。

KL penalty 的作用是防止 policy 为了追求 RM 分数而偏离语言质量、事实性和安全边界。它可以看作 RLHF 中的正则化项。

PPO 在 RLHF 中的角色

PPO 通过 clipped objective 限制单次 policy update 幅度，提高训练稳定性。语言模型输出空间巨大，response 是长 token 序列，reward 通常只在序列末端给出，因此直接 policy gradient 容易高方差且不稳定。PPO 引入：

old policy 与 new policy 的 probability ratio；
advantage estimation；
clipping；
value function 或 baseline；
KL penalty / KL monitoring。

这些机制让 policy 能逐步提高 reward，而不是一次更新就崩坏。

数据与采样

RLHF 不只依赖静态数据，还依赖 rollout：

从 prompt dataset 采样 prompts；
当前 policy 生成 responses；
reward model 给 responses 打分；
计算 KL penalty 和 advantage；
使用 PPO 更新 policy；
定期评估人工偏好、安全性、事实性和 benchmark。

Prompt distribution 很重要。如果 RL prompts 过窄，policy 会只在这些任务上优化；如果 prompts 与真实用户请求差异大，线上行为不会稳定提升。

KL Penalty

KL penalty 是 RLHF 稳定性的核心。它限制当前 policy 与 reference model 的差异：

KL (π_{θ} ∥ π_{ref}) = E_{y \sim π_{θ}} [lo g π_{θ} (y ∣ x) - lo g π_{ref} (y ∣ x)]

实践中常用 token-level KL 近似，把每个生成 token 的 log-prob 差作为惩罚。KL 太弱会导致 reward hacking；KL 太强会让 policy 几乎无法改进。很多系统会动态调整 $β$ ，使实际 KL 接近目标区间。

RLHF 的优势

能优化开放式偏好，而不是只模仿参考答案；
可以把人类排序信号放大为可训练 reward；
能处理多个候选之间的整体质量差异；
对写作、总结、对话、安全和复杂偏好任务很有效；
可以通过 online rollout 看到当前 policy 的真实错误分布。

RLHF 的局限

训练复杂

RLHF 涉及 SFT model、reward model、reference model、policy model、rollout engine、PPO trainer、KL controller 和评估系统，工程成本远高于纯 SFT 或 DPO。

Reward Hacking

Policy 会主动寻找 RM 漏洞。越强的优化越容易暴露 RM 的偏差，例如冗长、过度自信、模板化、安全过度保守等。

标注成本高

人类偏好标注需要一致规范、标注者培训和质量控制。复杂任务还需要专家标注，否则偏好信号噪声很大。

可解释性有限

Reward 是 scalar，不能总是指出回答哪里好或哪里坏。对于 reasoning 任务，ORM 只评价最终答案时尤其如此。

评估困难

RLHF 提升可能体现在用户偏好而不是标准 benchmark 上。自动评估与人工评估需要结合。

与 DPO / GRPO 的关系

DPO 试图保留 preference optimization 的核心收益，同时去掉显式 reward model 和 PPO rollout。它更简单、稳定、便宜，但不能像 RLHF 那样持续基于当前 policy 进行 online exploration。

GRPO 常用于可验证 reasoning RL。它保留 policy optimization 与 rollout，但用组内相对 reward 构造 advantage，减少 value model 依赖。对于数学和代码任务，reward 可以来自 verifier，而不一定来自人类偏好 RM。

🍊 Latent Atlas 🍉

探索