TODO: 说明 Linear Attention 的复杂度优化思路、kernel trick、适用场景和与标准 attention 的差异。