DINO: Emerging Properties in Self-Supervised Vision Transformers

URL

DINO（Distillation with No Labels） 是一种自监督学习方法，主要用于 Vision Transformer (ViT) 的训练
在无标签的图片数据上训练模型，让模型学习图像的表示意义
利用 MoCo 提出的 Momentum Teacher 算法做蒸馏

创建两个完全一样的网络，命名为教师 teacher 网络和学生 student 网络
对同一个输入 x，进行不同的数据增强，得到 x1 和 x2
交叉计算对比损失，再求均值得到 loss for student
只对 student 网络进行反向传播和梯度更新
基于 student 网络的参数更新 teacher 的参数，更新方式是 EMA (exponential moving average)，即： $\theta_t=\lambda \theta_t+(1-\lambda)\theta_s$
更新 teacher 网络输出的中心点： $C = m*C + (1 - m)*mean(t1, t2)$