基本信息
- Title: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
- Source type: paper
- Related topic notes: GRPO, Rejection Sampling, RLHF, Knowledge Distillation
TODO
- 阅读论文原文,整理 mathematical reasoning 数据、SFT、RL 和 GRPO 的训练流程。
- 回填 group-relative policy optimization 在可验证数学任务中的机制和实验结论。
- 补充 verifier reward、采样数量、pass rate 和 reasoning 能力之间的关系。