URL
https://arxiv.org/pdf/1709.01507.pdf
TL;DR
SENet给每个通道赋予权重,Attention to Channel
Algorithm

数学表达
SENet实验结果
ImageNet


other

Thoughts
SENet与SKNet属于Attention to channel,ULSAM属于Attention to HW,两个合起来是否可以替代 Non-local——在THW上的Attention
https://arxiv.org/pdf/1709.01507.pdf
SENet 给每个通道赋予权重,Attention to Channel
zc=Fsq(uc)=H×W1∑i=1H∑j=1Wuc(i,j), z∈RC
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z)), W1∈RrC×C, W2∈RC×rC
X~c=Fscale(uc,sc)=scuc, X∈RC
ImageNet

other
SENet 与 SKNet 属于 Attention to channel,ULSAM 属于 Attention to HW,两个合起来是否可以替代 Non-local——在 THW上的 Attentionhttps://arxiv.org/pdf/2007.11823.pdf

https://arxiv.org/pdf/2005.12872.pdf

1 | import torch |

https://arxiv.org/pdf/2006.04768.pdf
Linformer 使用矩阵的低秩来降低原始 Transformer 的 Multi-HEAD Attention 计算的时空复杂度Transformer 结构的复杂度
Transformer 使用的 Multi-HEAD Attentionheadi=Attention(QWiQ,KWiK,VWiV)=softmax[dkQWiQ(KWiK)T]VWiV
其中: K,Q,V∈Rn×dm WiQ,WiK∈Rdm×dk
所以: softmax[dkQWiQ(KWiK)T]∈Rn×n ,n 表示序列长度,所以原始 Transformer 使用的 Multi-HEAD Attention 的时空复杂度为 O(n2)
Linformer 对 Multi-HEAD Attention 的修改k 是一个常数,时空复杂度变成了 O(n) ,其中,E、F 都是可学习的投影矩阵, E,F∈Rk×nE、F 可共享参数,分为:


linformer 的 pip 包,可以在 torch 框架下直接使用https://arxiv.org/pdf/2012.12877.pdf
P x P (P 表示 patch_size),并将这个维度作为输出,其他 patch 维度丢弃GT label, Zs , Zt 表示 logits of student model and teacher model, ψ 表示 softmax, τ 表示蒸馏温度, LCE,KL 分表表示交叉熵与 KL 散度P x P,与 Class token 一起输出计算 loss 与 inferencelogits of class token and distillation tokenhttps://arxiv.org/pdf/2008.01232.pdf
一句话总结本文的主要工作:SOTA - TGAP + BERT = NEW SOTA
torch.nn.AdaptiveAvgPool3d) 对时间空间一起全局平均池化到一个 scalar,然后 Channel 维做 FC 分类Transformer 的数学表达式: yi=PFFN(N(x)1∑∀jg(xi)f(xi,xj))
其中:
PFFN: Position-wise Feed-forward Networ
R(2 + 1)D - TGAP + 1层 BERT = R(2 + 1)D_BERT,目前 HMDB51 和 UCF101 上的 SOTA
