🍊 Latent Atlas 🍉
Search
搜索
暗色模式
亮色模式
阅读模式
探索
Home
❯
Architecture
❯
Multimodal
❯
Vision Language Model
Vision-Language Model
2026年2月15日
1分钟阅读
multimodal
vlm
TODO: 说明视觉-语言模型基本结构,包括 vision encoder、projector、LLM、图文对齐和多模态输入格式。
关系图谱
反向链接
Multimodal