🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
探索
标签: pretraining-data
此标签下有9条笔记。
2026年5月31日
T5
source
paper
t5
c4
pretraining-data
2026年5月31日
Deduplicating Training Data Makes Language Models Better
source
paper
deduplication
pretraining-data
memorization
2026年5月31日
The Pile
source
paper
pretraining-data
data-mix
dataset
2026年5月31日
A Pretrainer's Guide to Training Data
source
paper
pretraining-data
data-quality
data-mix
2026年5月31日
RefinedWeb
source
paper
pretraining-data
web-data
data-filtering
2026年5月31日
ROOTS
source
paper
roots
multilingual
pretraining-data
2026年5月31日
DataComp-LM
source
paper
pretraining-data
datacomp
data-curation
2026年5月31日
Dolma
source
paper
dolma
pretraining-data
dataset
2026年5月31日
FineWeb
source
paper
fineweb
web-data
pretraining-data