基本信息
- Title: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
- Source type: paper
- Related topic notes: Data Engineering, Data Mix, Quality Filtering
TODO
- 阅读论文原文,整理 Dolma 的数据组成、清洗过滤、去重、开放语料设计和数据报告。
- 回填 open pretraining corpus 在 provenance、版本化和可复现实验中的作用。
- 补充 Dolma 与 OLMo 训练、The Pile、RefinedWeb、FineWeb 的关系。