🍊 Latent Atlas 🍉

❯

❯

Pretraining

2026年2月21日1分钟阅读

预训练阶段从大规模通用语料中学习基础语言建模能力，是 base model 能力形成的主要阶段。

这个目录可以按“目标 → 数据 → 表示 → 规模”的顺序阅读：

Pretraining：预训练整体流程和它与后训练的关系。
Training Objective：next-token prediction 及其边界。
Data Mix：训练分布如何决定能力分布。
Tokenizer：文本如何变成 token，以及 tokenizer 为什么是模型契约。
Compute Optimal：把 scaling 原理落到真实预训练计划。

Notes

预训练
训练目标
Reinforcement Pretraining
数据混合
Tokenizer
Compute Optimal

Related Source TODOs

Neural Machine Translation of Rare Words with Subword Units
SentencePiece
The Pile
A Pretrainer’s Guide to Training Data
RefinedWeb
DataComp-LM

此文件夹下有6条笔记。

2026年5月28日
Reinforcement Pretraining
2026年2月22日
Compute Optimal
- pretraining
- scaling
2026年2月22日
Data Mix
- pretraining
- data
2026年2月22日
Training Objective
- pretraining
- objective
2026年2月22日
Tokenizer
- pretraining
- tokenizer
2026年2月21日
Pretraining
- training
- pretraining

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026