概念界定
Dropout 是训练时随机将部分神经元或激活置零的正则化方法,用于降低模型对特定路径的依赖,缓解过拟合。
背景与问题
神经网络参数很多时,可能记住训练数据中的偶然模式。Dropout 通过训练时随机丢弃部分激活,让模型不能过度依赖某些特征组合,从而提高泛化能力。
结构与机制
训练时,对激活 x 采样 mask:
m_i ~ Bernoulli(1 - p)然后:
y = x ⊙ m / (1 - p)其中 p 是 dropout probability。
推理时通常不再随机丢弃,而是使用完整网络。
直观解释
Dropout 像是在训练时随机关闭一部分通路,迫使网络学到更稳健的表示,而不是依赖某几个固定神经元。
基本性质
- Dropout 只在训练时启用,推理时通常关闭。
- Dropout 会引入随机性。
- 大模型中 dropout 使用比例与模型规模、数据量和训练配方有关。
- 数据足够大、模型规模足够大时,有些 LLM 训练会使用较低 dropout 或不用 dropout。
常见误解
- 误解:Dropout 一定能提升大模型效果。
- 正确理解:它是否有用取决于数据规模、模型规模和训练设置。
- 误解:Dropout 推理时也会随机关闭神经元。
- 正确理解:标准 dropout 推理时关闭随机失活。