基本信息
- Title: The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
- Source type: paper
- Related topic notes: Data Mix, Data Engineering, Quality Filtering
TODO
- 阅读论文原文,整理 ROOTS 的多语言数据构成、治理流程、数据来源和质量控制。
- 回填 multilingual data engineering、provenance、language balance 和低资源语言风险。
- 补充 ROOTS 与 The Pile、C4、Dolma 等 corpus 的对比。