🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

RefinedWeb

RefinedWeb

2026年5月31日1分钟阅读

  • source
  • paper
  • pretraining-data
  • web-data
  • data-filtering

基本信息

  • Title: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
  • Source type: paper
  • Related topic notes: Data Mix, Data Cleaning, Quality Filtering, Deduplication

TODO

  • 阅读论文原文,整理 RefinedWeb 的 web-scale filtering、deduplication 和数据质量设计。
  • 回填“web data only”路线对预训练数据配方的启发与边界。
  • 补充 RefinedWeb 与 curated corpora、The Pile、DataComp-LM 的关系。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering
  • Data Mix
  • Pretraining

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026