URL

TL;DR

使用 SENet 结构的原因：网络深度过浅，下采样次数太少，只能通过 SE 结构获得全局信息
使用 RepVGG 结构的原因：结构重参数化白给的涨点，不要白不要
使用三个分支的原因：
- 三个分支分别处理不同分辨率级别的 feature，最终 fusion
- 选 “三” 是效果和速度的 tradeoff
如何做 model scale:
- 传统网络（例如 ResNet）做 model scale 的方法：
  - 缩放 H、W：减少下采样次数
  - 增加 C：增加卷积核数量
  - 增加深度：堆叠 block
- ParNet 做 model scale 的方法：
  - 增大 H、W：减少下采样次数
  - 增加 C：增加卷积核数量
  - 增加 Stream：增加横向 Branch 数量
SSE 是指 Skip-Squeeze-and-Excitation：为降低网络层数，将 SE 结构中 GAP 后的 feature 做一层 Conv 而不是两层 MLP
$SiLU(x) = x * sigmoid(x)$
本网络除了 SSE 结构之外，没有跳边连接

这个图有点不公平，因为横坐标表示层数而不是参数量