🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

Dolma

Dolma

2026年5月31日1分钟阅读

  • source
  • paper
  • dolma
  • pretraining-data
  • dataset

基本信息

  • Title: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
  • Source type: paper
  • Related topic notes: Data Engineering, Data Mix, Quality Filtering

TODO

  • 阅读论文原文,整理 Dolma 的数据组成、清洗过滤、去重、开放语料设计和数据报告。
  • 回填 open pretraining corpus 在 provenance、版本化和可复现实验中的作用。
  • 补充 Dolma 与 OLMo 训练、The Pile、RefinedWeb、FineWeb 的关系。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026