🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

ROOTS

ROOTS

2026年5月31日1分钟阅读

  • source
  • paper
  • roots
  • multilingual
  • pretraining-data

基本信息

  • Title: The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset
  • Source type: paper
  • Related topic notes: Data Mix, Data Engineering, Quality Filtering

TODO

  • 阅读论文原文,整理 ROOTS 的多语言数据构成、治理流程、数据来源和质量控制。
  • 回填 multilingual data engineering、provenance、language balance 和低资源语言风险。
  • 补充 ROOTS 与 The Pile、C4、Dolma 等 corpus 的对比。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026