🍊 Latent Atlas 🍉

Home

❯

Sources

❯

Papers

❯

Documenting Large Webtext Corpora

Documenting Large Webtext Corpora

2026年5月31日1分钟阅读

  • source
  • paper
  • webtext
  • c4
  • data-documentation

基本信息

  • Title: Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus
  • Source type: paper
  • Related topic notes: Data Cleaning, Quality Filtering, Data Engineering

TODO

  • 阅读论文原文,整理 C4 的数据来源、清洗规则、过滤副作用和数据文档化问题。
  • 回填 web-scale corpus documentation、过滤偏差、toxicity 和 benchmark overlap 的分析。
  • 补充它对数据 provenance 和可审计训练数据的启发。

关系图谱

  • 基本信息
  • TODO

反向链接

  • Papers
  • Data Cleaning
  • Data Engineering

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026