🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

The Pile

The Pile

2026年5月31日1分钟阅读

  • source
  • paper
  • pretraining-data
  • data-mix
  • dataset

基本信息

  • Title: The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  • Source type: paper
  • Related topic notes: Data Mix, Data Engineering, Quality Filtering

TODO

  • 阅读论文原文,整理 The Pile 的数据组成、采样设计、数据文档和评测方式。
  • 回填多源数据混合对 language modeling、code、academic 和 long-form 能力的影响。
  • 补充 The Pile 暴露的数据质量、偏见、版权、污染和 documentation debt 问题。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Engineering
  • Data Mix
  • Pretraining

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026