Computational Graph and Automatic Differentiation

概念界定

计算图是把模型计算表示为节点和边的有向图，自动微分是深度学习框架基于计算图自动计算梯度的机制。它们是 PyTorch、JAX、TensorFlow 等框架执行反向传播的基础。

大模型由大量张量操作组成，如果手动推导和实现每个操作的梯度几乎不可行。计算图记录前向计算依赖关系，自动微分根据这些依赖关系自动组合局部梯度。

计算图中：

例如：

x, W -> matmul -> y -> loss -> L

反向时：

L -> loss -> y -> matmul -> x, W

计算图像一张“计算账本”，记录每个结果是从哪些输入算出来的。反向传播时，框架沿着这张账本反向追踪每个参数对 loss 的影响。

PyTorch 中：

loss.backward()
optimizer.step()

backward() 根据计算图计算梯度，step() 由优化器更新参数。二者职责不同。