多模态架构模块负责整理视觉-语言模型和多模态对齐结构,包括 CLIP、LLaVA、Qwen-VL 等模型路线。 Notes Vision-Language Model CLIP LLaVA Qwen-VL Multimodal Projector