基本信息
- Title: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
- Source type: paper
- Related topic notes: DPO, RLHF, Reward Model
TODO
- 阅读论文原文,整理 DPO 从 KL-regularized RLHF 到 pairwise logistic loss 的推导。
- 回填 beta、reference model、chosen/rejected log-prob ratio 的机制解释。
- 补充 DPO 与 PPO-RLHF 的实验对比、局限和适用条件。