TODO: 说明 LLaVA 的 vision encoder + projector + LLM 架构、指令微调和多模态对话数据。