🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

Direct Preference Optimization

Direct Preference Optimization

2026年5月29日1分钟阅读

  • source
  • paper
  • dpo
  • preference-optimization
  • alignment

基本信息

  • Title: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
  • Source type: paper
  • Related topic notes: DPO, RLHF, Reward Model

TODO

  • 阅读论文原文,整理 DPO 从 KL-regularized RLHF 到 pairwise logistic loss 的推导。
  • 回填 beta、reference model、chosen/rejected log-prob ratio 的机制解释。
  • 补充 DPO 与 PPO-RLHF 的实验对比、局限和适用条件。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • DPO
  • Post-training

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026