URL
TL;DR
- 本文提出一种类似
GPT-4
的图文多模态模型Large Language and Vision Assistant (LLaVA)
,基于开源的CLIP
和LLaMA
分别作为图文编码器,因此LLaVA
也完全开源
Algorithm
多模态指令遵循数据生成
- 已有:图形——文本对数据集
- 需要:图文指令遵循数据集,格式为:
- 图片:原始图片
- 问题:由
GPT-4
生成,输入原始 “图片-文本” 给GPT-4
,让GPT-4
就这些信息提问 - 答案:同上,让
GPT-4
回答自己提出的问题
模型结构
- 图像模型:
CLIP ViT-L/14
已做过图像文本对齐的预训练图像编码器模型 - 大语言模型:
LLaMA
预训练模型 - 连接层:简单的线性映射层
如何训练和微调
训练
- 冻结图像编码模型
- 冻结
LLM
模型 - 训练连接层
微调
- 冻结图像编码模型
- 训练
LLM
模型 - 训练连接层
graph TD; A([视觉编码器]) --> B([连接层]) B --> C([LLaMA语言模型]) D[语言指令(例如:“请根据这张图片生成一个详细的描述”)] --> C C --> E[文本响应] F[图像] --> A G[系统消息(例如:对话历史记录)] --> C
Thought
- 简单直接,来自开源,也回馈开源,很棒!