基本信息
- Title: The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
- Source type: paper
- Related topic notes: Data Cleaning, Quality Filtering, Data Mix
TODO
- 阅读论文原文,整理 FineWeb 的 web data filtering、deduplication、quality ablation 和数据版本设计。
- 回填大规模 web corpus 如何通过过滤、去重和 ablation 改善预训练效果。
- 补充 FineWeb 与 RefinedWeb、Dolma、DataComp-LM 的关系。