基本信息
- Title: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- Source type: paper
- Related topic notes: Data Engineering, Data Cleaning, Training Objective
TODO
- 阅读论文原文,整理 C4 数据构造、text-to-text framework 和 pretraining objective 对后续 LLM 数据工程的影响。
- 回填 web-scale cleaning、dedup/filtering 和 task mixture 的设计经验。
- 补充 T5 与后续 C4 数据文档化工作的关系。