🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
探索
标签: preference-learning
此标签下有1条笔记。
2026年5月29日
Deep Reinforcement Learning from Human Preferences
source
paper
rlhf
reward-model
preference-learning