🍊 Latent Atlas 🍉

❯

❯

❯

Vision Language Model

Vision-Language Model

2026年2月15日1分钟阅读

multimodal
vlm

TODO: 说明视觉-语言模型基本结构，包括 vision encoder、projector、LLM、图文对齐和多模态输入格式。

关系图谱

反向链接

Multimodal

🍊 Latent Atlas 🍉 · An AI knowledge atlas built with Quartz © 2026