基本信息
- Title: Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus
- Source type: paper
- Related topic notes: Data Cleaning, Quality Filtering, Data Engineering
TODO
- 阅读论文原文,整理 C4 的数据来源、清洗规则、过滤副作用和数据文档化问题。
- 回填 web-scale corpus documentation、过滤偏差、toxicity 和 benchmark overlap 的分析。
- 补充它对数据 provenance 和可审计训练数据的启发。