TODO: 说明 CLIP 的图文对比学习、双塔结构、embedding 对齐和在 VLM 中的作用。