0%

LLaVA: Visual Instruction Tuning

Posted on 2024-10-11 Edited on 2025-03-21 In LLM Valine:

URL

paper: https://arxiv.org/pdf/2304.08485
code: https://llava-vl.github.io

TL;DR

本文提出一种类似 GPT-4 的图文多模态模型 Large Language and Vision Assistant (LLaVA)，基于开源的 CLIP 和 LLaMA 分别作为图文编码器，因此 LLaVA 也完全开源

Algorithm

多模态指令遵循数据生成

已有：图形——文本对数据集
需要：图文指令遵循数据集，格式为：
- 图片：原始图片
- 问题：由 GPT-4 生成，输入原始 “图片-文本” 给 GPT-4，让 GPT-4 就这些信息提问
- 答案：同上，让 GPT-4 回答自己提出的问题

模型结构

图像模型：CLIP ViT-L/14 已做过图像文本对齐的预训练图像编码器模型
大语言模型：LLaMA 预训练模型
连接层：简单的线性映射层

如何训练和微调

训练

冻结图像编码模型
冻结 LLM 模型
训练连接层

微调

冻结图像编码模型
训练 LLM 模型
训练连接层

Thought

简单直接，来自开源，也回馈开源，很棒！

Powered By Valine
v1.5.2