基本信息
- Title: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
- Source type: paper
- Related topic notes: Data Mix, Data Cleaning, Quality Filtering, Deduplication
TODO
- 阅读论文原文,整理 RefinedWeb 的 web-scale filtering、deduplication 和数据质量设计。
- 回填“web data only”路线对预训练数据配方的启发与边界。
- 补充 RefinedWeb 与 curated corpora、The Pile、DataComp-LM 的关系。