URL
https://arxiv.org/pdf/2108.13341.pdf
TL;DR
- 本文提出一种 分级重排 (Hierarchical Rearrangement) 的视觉
MLP
网络结构用于图像分类,效果优于 MLP-mixer - MLP-mixer 存在的问题:
- 输入尺寸和模型结构强耦合,所以不能将分类模型作为下游任务的预训练
- flatten 之后,空间的局部信息丢失,只能提取全局信息
- 该论文的优点:
- 输入尺寸 flexible
- inference 速度快
Algorithm
- 网络结构
其中,inner-region rearrange
过程为:
cross-region rearrange
过程为:
- 数学表示
$Y = Hire-Module(LN(X)) + X $
$ Z = Channel-MLP(LN(Y )) + Y$ - 效果