🍊 Latent Atlas 🍉

标签: pretraining-data

此标签下有9条笔记。

  • 2026年5月31日

    T5

    • source
    • paper
    • t5
    • c4
    • pretraining-data
  • 2026年5月31日

    Deduplicating Training Data Makes Language Models Better

    • source
    • paper
    • deduplication
    • pretraining-data
    • memorization
  • 2026年5月31日

    The Pile

    • source
    • paper
    • pretraining-data
    • data-mix
    • dataset
  • 2026年5月31日

    A Pretrainer's Guide to Training Data

    • source
    • paper
    • pretraining-data
    • data-quality
    • data-mix
  • 2026年5月31日

    RefinedWeb

    • source
    • paper
    • pretraining-data
    • web-data
    • data-filtering
  • 2026年5月31日

    ROOTS

    • source
    • paper
    • roots
    • multilingual
    • pretraining-data
  • 2026年5月31日

    DataComp-LM

    • source
    • paper
    • pretraining-data
    • datacomp
    • data-curation
  • 2026年5月31日

    Dolma

    • source
    • paper
    • dolma
    • pretraining-data
    • dataset
  • 2026年5月31日

    FineWeb

    • source
    • paper
    • fineweb
    • web-data
    • pretraining-data

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026