Softmax

概念界定

Softmax 是把一组实数 logits 转换为概率分布的函数。它保证输出非负且总和为 1，是分类、next-token prediction 和 Attention 权重计算中的核心函数。

神经网络最后一层通常输出未归一化的分数 logits，而概率分布需要满足非负和总和为 1。Softmax 提供了从任意实数向量到概率分布的转换方式。

给定 logits z，softmax 定义为：

softmax(z_i) = exp(z_i) / Σ_j exp(z_j)

输出满足：

softmax(z_i) >= 0
Σ_i softmax(z_i) = 1

带 temperature 的形式：

p_i = softmax(z_i / T)

Softmax 会把较大的 logit 转成更高概率，但不是简单线性缩放。指数函数会放大 logit 差异，因此最高 logit 往往会获得更大概率质量。

next-token prediction 中：

hidden state -> lm head -> logits -> softmax -> token probabilities

Attention 中：

scores = QK^T / sqrt(d_head)
weights = softmax(scores + mask)

这里 softmax 把 attention scores 转为对 value 的加权权重。