URL
https://arxiv.org/pdf/2005.12872.pdf
Algorithm
Architecture

DETR inference
1 | import torch |
- 模型拓扑图

https://arxiv.org/pdf/2005.12872.pdf

1 | import torch |

https://arxiv.org/pdf/2006.04768.pdf
Linformer 使用矩阵的低秩来降低原始 Transformer 的 Multi-HEAD Attention 计算的时空复杂度Transformer 结构的复杂度
Transformer 使用的 Multi-HEAD Attentionheadi=Attention(QWiQ,KWiK,VWiV)=softmax[dkQWiQ(KWiK)T]VWiV
其中: K,Q,V∈Rn×dm WiQ,WiK∈Rdm×dk
所以: softmax[dkQWiQ(KWiK)T]∈Rn×n ,n 表示序列长度,所以原始 Transformer 使用的 Multi-HEAD Attention 的时空复杂度为 O(n2)
Linformer 对 Multi-HEAD Attention 的修改k 是一个常数,时空复杂度变成了 O(n) ,其中,E、F 都是可学习的投影矩阵, E,F∈Rk×nE、F 可共享参数,分为:


linformer 的 pip 包,可以在 torch 框架下直接使用https://arxiv.org/pdf/2012.12877.pdf
P x P (P 表示 patch_size),并将这个维度作为输出,其他 patch 维度丢弃GT label, Zs , Zt 表示 logits of student model and teacher model, ψ 表示 softmax, τ 表示蒸馏温度, LCE,KL 分表表示交叉熵与 KL 散度P x P,与 Class token 一起输出计算 loss 与 inferencelogits of class token and distillation tokenhttps://arxiv.org/pdf/2008.01232.pdf
一句话总结本文的主要工作:SOTA - TGAP + BERT = NEW SOTA
torch.nn.AdaptiveAvgPool3d) 对时间空间一起全局平均池化到一个 scalar,然后 Channel 维做 FC 分类Transformer 的数学表达式: yi=PFFN(N(x)1∑∀jg(xi)f(xi,xj))
其中:
PFFN: Position-wise Feed-forward Networ
R(2 + 1)D - TGAP + 1层 BERT = R(2 + 1)D_BERT,目前 HMDB51 和 UCF101 上的 SOTA
