基本信息

TODO

  • 阅读论文原文,整理 loss 随参数量、数据量和 compute 呈 power-law 改善的经验结果。
  • 回填 Kaplan-style compute-optimal 分配、早期大模型 scaling 观点及其适用边界。
  • 对照 Chinchilla 论文,整理两者在数据量、模型大小和训练 token 分配上的差异。