🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
探索
标签: post-training
此标签下有15条笔记。
2026年3月01日
Post-training
training
post-training
2026年3月08日
Knowledge Distillation
post-training
distillation
2026年3月08日
Logits Distillation
post-training
distillation
logits
2026年3月08日
Offline KD
post-training
distillation
offline-kd
2026年3月08日
On-policy KD
post-training
distillation
on-policy-kd
2026年3月08日
Sequence-level Distillation
post-training
distillation
sequence-level
2026年3月07日
DPO
training
post-training
alignment
2026年3月07日
GRPO
post-training
grpo
reasoning
2026年3月07日
PPO
post-training
rlhf
ppo
2026年3月07日
Rejection Sampling
post-training
sampling
data
2026年3月07日
RLHF
training
post-training
alignment
2026年3月01日
Chat Template
post-training
chat-template
2026年3月01日
Instruction Tuning
post-training
instruction-tuning
2026年3月01日
Reward Model
training
post-training
alignment
2026年3月01日
SFT
training
post-training
alignment