TODO: 说明 Efficient Transformer 路线,包括稀疏 attention、低秩 attention、局部 attention、长序列效率优化。