基本信息

TODO

  • 阅读论文原文,整理 residual connection 如何缓解深层网络优化困难。
  • 回填 identity shortcut、residual mapping 和深层可训练性的基本思想。
  • 对照 Transformer 中 Pre-Norm residual path,区分视觉 ResNet 结构与 Transformer block 中 residual 的用法。