基本信息

TODO

  • 阅读论文原文,整理 data age、domain coverage、quality filtering 和 toxicity filtering 对模型表现的影响。
  • 回填数据配方 ablation 如何支持 data mix 不是简单语料拼接,而是能力分布设计。
  • 补充 benchmark 年代、污染和数据时效性对模型比较的影响。