🍊 Latent Atlas 🍉

标签: post-training

此标签下有15条笔记。

  • 2026年3月01日

    Post-training

    • training
    • post-training
  • 2026年3月08日

    Knowledge Distillation

    • post-training
    • distillation
  • 2026年3月08日

    Logits Distillation

    • post-training
    • distillation
    • logits
  • 2026年3月08日

    Offline KD

    • post-training
    • distillation
    • offline-kd
  • 2026年3月08日

    On-policy KD

    • post-training
    • distillation
    • on-policy-kd
  • 2026年3月08日

    Sequence-level Distillation

    • post-training
    • distillation
    • sequence-level
  • 2026年3月07日

    DPO

    • training
    • post-training
    • alignment
  • 2026年3月07日

    GRPO

    • post-training
    • grpo
    • reasoning
  • 2026年3月07日

    PPO

    • post-training
    • rlhf
    • ppo
  • 2026年3月07日

    Rejection Sampling

    • post-training
    • sampling
    • data
  • 2026年3月07日

    RLHF

    • training
    • post-training
    • alignment
  • 2026年3月01日

    Chat Template

    • post-training
    • chat-template
  • 2026年3月01日

    Instruction Tuning

    • post-training
    • instruction-tuning
  • 2026年3月01日

    Reward Model

    • training
    • post-training
    • alignment
  • 2026年3月01日

    SFT

    • training
    • post-training
    • alignment

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026