基本信息
- Title: The Pile: An 800GB Dataset of Diverse Text for Language Modeling
- Source type: paper
- Related topic notes: Data Mix, Data Engineering, Quality Filtering
TODO
- 阅读论文原文,整理 The Pile 的数据组成、采样设计、数据文档和评测方式。
- 回填多源数据混合对 language modeling、code、academic 和 long-form 能力的影响。
- 补充 The Pile 暴露的数据质量、偏见、版权、污染和 documentation debt 问题。