稀疏与高效架构模块负责整理 MoE、Mamba、SSM、Linear Attention 等用于提升扩展性、效率或长序列建模能力的架构路线。
Reading Path
- Mixture of Experts:通过 sparse FFN 扩大 total capacity。
- Linear Attention 与 Efficient Transformer:降低 attention 长序列复杂度的路线。
- State Space Model 与 SSM:用状态空间结构替代或补充 attention 的路线。