基本信息
- Title: Deduplicating Training Data Makes Language Models Better
- Source type: paper
- Related topic notes: Deduplication, Data Engineering, Evaluation
TODO
- 阅读论文原文,整理 exact / near dedup 对语言模型训练、记忆和泛化的影响。
- 回填重复数据如何改变 validation loss、benchmark contamination 和 generation memorization。
- 补充去重粒度、阈值和副作用的实践边界。