0%

Hire-MLP: Vision MLP via Hierarchical Rearrangement

Posted on 2021-09-23 Edited on 2025-03-21 In CNN Architecture Design Valine:

URL

https://arxiv.org/pdf/2108.13341.pdf

TL;DR

本文提出一种 分级重排 (Hierarchical Rearrangement) 的视觉 MLP 网络结构用于图像分类，效果优于 MLP-mixer
MLP-mixer 存在的问题：
- 输入尺寸和模型结构强耦合，所以不能将分类模型作为下游任务的预训练
- flatten 之后，空间的局部信息丢失，只能提取全局信息
该论文的优点：
- 输入尺寸 flexible
- inference 速度快

Algorithm

网络结构

其中，inner-region rearrange 过程为：

cross-region rearrange 过程为：
数学表示
$Y = Hire-Module(LN(X)) + X $
$ Z = Channel-MLP(LN(Y )) + Y$
效果