基本信息

TODO

  • 阅读论文原文,整理 Chinchilla 的 compute-optimal scaling 设定、实验方法和核心结论。
  • 回填参数量与训练 token 数应更均衡增长的经验规律,以及常见 20 tokens/parameter 启发式的边界。
  • 对照 Kaplan scaling law,整理 undertrained large model 的诊断方式与实践影响。