URL
TL;DR
- 本文提出一种类似
GPT-4
的图文多模态模型Large Language and Vision Assistant (LLaVA)
,基于开源的CLIP
和LLaMA
分别作为图文编码器,因此LLaVA
也完全开源
Algorithm
多模态指令遵循数据生成
- 已有:图形——文本对数据集
- 需要:图文指令遵循数据集,格式为:
- 图片:原始图片
- 问题:由
GPT-4
生成,输入原始 “图片-文本” 给GPT-4
,让GPT-4
就这些信息提问 - 答案:同上,让
GPT-4
回答自己提出的问题
模型结构
- 图像模型:
CLIP ViT-L/14
已做过图像文本对齐的预训练图像编码器模型 - 大语言模型:
LLaMA
预训练模型 - 连接层:简单的线性映射层
如何训练和微调
训练
- 冻结图像编码模型
- 冻结
LLM
模型 - 训练连接层
微调
- 冻结图像编码模型
- 训练
LLM
模型 - 训练连接层
Thought
- 简单直接,来自开源,也回馈开源,很棒!
v1.5.2