🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

DataComp LM

DataComp-LM

2026年5月31日1分钟阅读

  • source
  • paper
  • pretraining-data
  • datacomp
  • data-curation

基本信息

  • Title: DataComp-LM: In search of the next generation of training sets for language models
  • Source type: paper
  • Related topic notes: Data Mix, Quality Filtering, Compute Optimal

TODO

  • 阅读论文原文,整理 DataComp-LM 的数据集设计、过滤基线、比较协议和评测结果。
  • 回填 model-based filtering、数据质量和开放数据配方对预训练能力的影响。
  • 补充它与 RefinedWeb、The Pile 和 compute-optimal pretraining 的关系。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering
  • Quality Filtering
  • Data Mix
  • Pretraining

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026