Zhangzhe's Blog

The projection of my life.

0%

Hire-MLP: Vision MLP via Hierarchical Rearrangement

URL

https://arxiv.org/pdf/2108.13341.pdf

TL;DR

  • 本文提出一种 分级重排 (Hierarchical Rearrangement) 的视觉 MLP 网络结构用于图像分类,效果优于 MLP-mixer
  • MLP-mixer 存在的问题:
    • 输入尺寸和模型结构强耦合,所以不能将分类模型作为下游任务的预训练
    • flatten 之后,空间的局部信息丢失,只能提取全局信息
  • 该论文的优点:
    • 输入尺寸 flexible
    • inference 速度快

Algorithm

  • 网络结构

hire1.png

其中,inner-region rearrange 过程为:

hire2.png

cross-region rearrange 过程为:

hire3.png

  • 数学表示

    $Y = Hire-Module(LN(X)) + X $

    $ Z = Channel-MLP(LN(Y )) + Y$

  • 效果

hire4.png