URL
https://arxiv.org/pdf/2005.12872.pdf
Algorithm
Architecture
DETR inference
1 | import torch |
- 模型拓扑图
https://arxiv.org/pdf/2005.12872.pdf
1 | import torch |
https://arxiv.org/pdf/2006.04768.pdf
Linformer
使用矩阵的低秩来降低原始 Transformer
的 Multi-HEAD Attention
计算的时空复杂度Transformer
结构的复杂度Transformer
使用的 Multi-HEAD Attention
headi=Attention(QWiQ,KWiK,VWiV)=softmax[dkQWiQ(KWiK)T]VWiV
其中: K,Q,V∈Rn×dm WiQ,WiK∈Rdm×dk
所以: softmax[dkQWiQ(KWiK)T]∈Rn×n ,n
表示序列长度,所以原始 Transformer
使用的 Multi-HEAD Attention
的时空复杂度为 O(n2)
Linformer
对 Multi-HEAD Attention
的修改k
是一个常数,时空复杂度变成了 O(n) ,其中,E、F
都是可学习的投影矩阵, E,F∈Rk×nE、F
可共享参数,分为:
linformer
的 pip
包,可以在 torch
框架下直接使用https://arxiv.org/pdf/2012.12877.pdf
P x P
(P 表示 patch_size),并将这个维度作为输出,其他 patch 维度丢弃GT label
, Zs , Zt 表示 logits of student model and teacher model
, ψ 表示 softmax
, τ 表示蒸馏温度, LCE,KL 分表表示交叉熵与 KL 散度P x P
,与 Class token 一起输出计算 loss 与 inferencelogits of class token and distillation token
https://arxiv.org/pdf/2008.01232.pdf
一句话总结本文的主要工作:SOTA - TGAP + BERT = NEW SOTA
torch.nn.AdaptiveAvgPool3d
) 对时间空间一起全局平均池化到一个 scalar,然后 Channel 维做 FC 分类Transformer 的数学表达式: yi=PFFN(N(x)1∑∀jg(xi)f(xi,xj))
其中:
PFFN
: Position-wise Feed-forward NetworR(2 + 1)D - TGAP + 1层 BERT = R(2 + 1)D_BERT
,目前 HMDB51 和 UCF101 上的 SOTA