稀疏与高效架构模块负责整理 MoE、Mamba、SSM、Linear Attention 等用于提升扩展性、效率或长序列建模能力的架构路线。

Reading Path

  1. Mixture of Experts:通过 sparse FFN 扩大 total capacity。
  2. Linear AttentionEfficient Transformer:降低 attention 长序列复杂度的路线。
  3. State Space Model SSM:用状态空间结构替代或补充 attention 的路线。

Notes