Zhangzhe's Blog

The projection of my life.

0%

CLIP: Learning Transferable Visual Models From Natural Language Supervision

URL

TL;DR

  • CLIPOpenAI 提出的一种图文多模态对齐算法,在收集到的 4 亿对图片文本数据对上,将文本和图像编码在同一表达空间下,实现了图文模态的对齐
  • 可以 zero-shot 迁移到其他计算机视觉任务上

Algorithm

CLIP.png

训练时

  1. N 对图片和文本各自编码
  2. 计算得到不同模态之间两两编码的 余弦相似度 RN×N\in \mathbb{R}^{N\times N}
  3. 使用对比学习的方式,提高 N 个正样本的相似度,降低剩余的 N2NN^2-N 个样本的相似度

推理时(以 ImageNet 分类任务为例)

  1. ImageNet-1k 的所有 1000 种类别标签,通过训练好的文本编码器,转换到特征空间中
  2. 将需要分类的图片,通过训练好的图片编码器,转换到特征空间中
  3. 图像编码找到余弦相似度最高的文本编码,对应的类别就是图片类别

模型选型

  • 图像编码器:
    • Vision Transformer (ViT)
    • ResNet-50
  • 文本编码器:Transformer
    • 63M 参数
    • 12
    • 512
    • 49152 词表大小
    • BPE 文本编码方式

Thought

  • 简洁高效,像 OpenAI 固有的风格
  • 有没有可能在 GPT-4 的多模态中用到呢?