训练数据工程负责数据收集、清洗、去重、过滤、混合、packing 和合成数据构造,是训练效果的基础约束。
建议阅读顺序:
- Data Engineering:理解从原始数据到 token stream 的完整 pipeline。
- Data Cleaning:处理解析、规范化、语言识别和基础噪声。
- Deduplication:控制重复、记忆和评测污染。
- Quality Filtering:用规则、分类器、PPL 和模型评分选择有效数据。
- Packing:把 tokenized samples 组织成高吞吐训练序列。
- Synthetic Data:理解 teacher generation、Self-Instruct、verifier 和合成数据风险。