TODO: 说明视觉-语言模型基本结构,包括 vision encoder、projector、LLM、图文对齐和多模态输入格式。