Zhangzhe's Blog

The projection of my life.

0%

Hire-MLP: Vision MLP via Hierarchical Rearrangement

URL

https://arxiv.org/pdf/2108.13341.pdf

TL;DR

  • 本文提出一种 分级重排 (Hierarchical Rearrangement) 的视觉 MLP 网络结构用于图像分类,效果优于 MLP-mixer
  • MLP-mixer 存在的问题:
    • 输入尺寸和模型结构强耦合,所以不能将分类模型作为下游任务的预训练
    • flatten 之后,空间的局部信息丢失,只能提取全局信息
  • 该论文的优点:
    • 输入尺寸 flexible
    • inference 速度快

Algorithm

  • 网络结构
    hire1.png
    其中,inner-region rearrange 过程为:
    hire2.png
    cross-region rearrange 过程为:
    hire3.png
  • 数学表示
    $Y = Hire-Module(LN(X)) + X $
    $ Z = Channel-MLP(LN(Y )) + Y$
  • 效果
    hire4.png