🍊 Latent Atlas 🍉

标签: reward-model

此标签下有3条笔记。

  • 2026年5月29日

    Deep Reinforcement Learning from Human Preferences

    • source
    • paper
    • rlhf
    • reward-model
    • preference-learning
  • 2026年5月29日

    Learning to summarize from human feedback

    • source
    • paper
    • rlhf
    • summarization
    • reward-model
  • 2026年5月29日

    Training language models to follow instructions with human feedback

    • source
    • paper
    • instructgpt
    • rlhf
    • sft
    • reward-model

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026