基本信息
- Title: DataComp-LM: In search of the next generation of training sets for language models
- Source type: paper
- Related topic notes: Data Mix, Quality Filtering, Compute Optimal
TODO
- 阅读论文原文,整理 DataComp-LM 的数据集设计、过滤基线、比较协议和评测结果。
- 回填 model-based filtering、数据质量和开放数据配方对预训练能力的影响。
- 补充它与 RefinedWeb、The Pile 和 compute-optimal pretraining 的关系。