TODO: 说明多模态 projector 如何把视觉特征映射到 LLM hidden space,包括 linear/MLP projector 和 token 对齐。