基本信息
- Title: Scaling Laws for Neural Language Models
- Source type: paper
- Related topic notes: Scaling Law, Model Data and Compute, Compute Optimal
TODO
- 阅读论文原文,整理 loss 随参数量、数据量和 compute 呈 power-law 改善的经验结果。
- 回填 Kaplan-style compute-optimal 分配、早期大模型 scaling 观点及其适用边界。
- 对照 Chinchilla 论文,整理两者在数据量、模型大小和训练 token 分配上的差异。