基本信息
- Title: A Pretrainer’s Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity
- Source type: paper
- Related topic notes: Data Mix, Quality Filtering, Data Cleaning
TODO
- 阅读论文原文,整理 data age、domain coverage、quality filtering 和 toxicity filtering 对模型表现的影响。
- 回填数据配方 ablation 如何支持 data mix 不是简单语料拼接,而是能力分布设计。
- 补充 benchmark 年代、污染和数据时效性对模型比较的影响。