TODO: 说明 encoder-decoder Transformer 的结构、cross-attention、seq2seq 任务,以及与 decoder-only LLM 的区别。