🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

FineWeb

FineWeb

2026年5月31日1分钟阅读

  • source
  • paper
  • fineweb
  • web-data
  • pretraining-data

基本信息

  • Title: The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale
  • Source type: paper
  • Related topic notes: Data Cleaning, Quality Filtering, Data Mix

TODO

  • 阅读论文原文,整理 FineWeb 的 web data filtering、deduplication、quality ablation 和数据版本设计。
  • 回填大规模 web corpus 如何通过过滤、去重和 ablation 改善预训练效果。
  • 补充 FineWeb 与 RefinedWeb、Dolma、DataComp-LM 的关系。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026