0%
URL
TL;DR
CLIP 是 OpenAI 提出的一种图文多模态对齐算法,在收集到的 4 亿对图片文本数据对上,将文本和图像编码在同一表达空间下,实现了图文模态的对齐
- 可以
zero-shot 迁移到其他计算机视觉任务上
Algorithm

训练时
N 对图片和文本各自编码
- 计算得到不同模态之间两两编码的 余弦相似度 ∈RN×N
- 使用对比学习的方式,提高
N 个正样本的相似度,降低剩余的 N2−N 个样本的相似度
推理时(以 ImageNet 分类任务为例)
- 将
ImageNet-1k 的所有 1000 种类别标签,通过训练好的文本编码器,转换到特征空间中
- 将需要分类的图片,通过训练好的图片编码器,转换到特征空间中
- 图像编码找到余弦相似度最高的文本编码,对应的类别就是图片类别
模型选型
- 图像编码器:
Vision Transformer (ViT)
ResNet-50
- 文本编码器:
Transformer
63M 参数
12 层
512 宽
49152 词表大小
BPE 文本编码方式
Thought
- 简洁高效,像
OpenAI 固有的风格
- 有没有可能在
GPT-4 的多模态中用到呢?