🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
探索
标签: rlhf
此标签下有4条笔记。
2026年5月29日
Deep Reinforcement Learning from Human Preferences
source
paper
rlhf
reward-model
preference-learning
2026年5月29日
Learning to summarize from human feedback
source
paper
rlhf
summarization
reward-model
2026年5月29日
Training language models to follow instructions with human feedback
source
paper
instructgpt
rlhf
sft
reward-model
2026年3月07日
PPO
post-training
rlhf
ppo