Learning Versatile Convolution Filters for Efficient Visual Recognition

URL

神经网络轻量化（参数量与计算量）常用方法：
- 模型压缩，主要包括：
  - 权重分解
  - 网络剪枝
  - 权重量化
  - 知识蒸馏
- 网络结构轻量化，主要包括：
  - Xception
  - MobileNet series
  - ShuffleNet series
  - OctConv
  - MixConv
本论文思路：
- 将一个主卷积核与多个二值 mask 点积生成 多个次级卷积核
- 二值 mask 作用在 H、W、C 上，所以每 个次级卷积核的感受野可能不同，关注的 channel 可能不同

空间方向就是指 H、W 方向
图中用一个极端例子演示，实际上二值 mask 不是由人手工设计的，而是神经网络自动学习得到
普通卷积计算过程：
- $input:\ x\in\mathbb{R}^{H\times W\times c}$
- $filter:\ f \in\mathbb{R}^{d\times d\times c}$
- $output:\ y = f @ x\ \ ,\ \ \ y\in\mathbb{R}^{H'\times W'}$ （“@” means convolution operation）
多功能卷积计算过程（在空间方向上）：
- $filter:\ f \in\mathbb{R}^{d\times d}$
- $binery\ mask:\ M_i(p,q,c) = \begin{cases} 1,\ if\ p,q \ge i \mid p,q \le d+1-i\\ 0,\ otherwise \end{cases}$
- $secondary\ filter:\ \{\hat{f}_1,\ \hat{f}_2,\ ...\ ,\hat{f}_s\}\ \ ,\ \ \ \ s=\lceil \frac{d}{2} \rceil\ ,\ \ \ \hat{f}_i = M_i \circ f$
- $output: \ y = [(M_i\circ f)\ @\ x + b_1, ...\ , (M_s\circ f)\ @\ x + b_s],$
  $s.t.\ s = \lceil \frac{d}{2} \lceil,\ { M_i }^{s_{i=1}\in{0, 1}}{d\times d\times c}\ $
“[]” means concat， $b_i$ means bias
- naive version： $output:\ y = \sum_{i=1}^s(M_i\circ f)\ @\ x + b = [\sum_{i=1}^s(M_i)\circ f]\ @\ x + b,$
$ s.t.\ s = \lceil \frac{d}{2} \lceil,\ { M_i }^{s_{i=1}\in{0, 1}}{d\times d\times c}\ $

总 loss 包括 任务相关 loss 和 mask 正交 loss
只有 任务相关 loss 与主卷积核相关
$\frac{\partial\mathcal L}{\partial f_i} = \frac{\partial\mathcal L_0}{\partial f_i} = \sum_{j=1}^{s}\frac{\partial\mathcal L_0}{\partial \hat f_{ij}}\circ M_j$
$\frac{\partial\mathcal L}{\partial F} = [\frac{\partial\mathcal L_0}{\partial f_1},\ ....\ ,\frac{\partial\mathcal L_0}{\partial f_k}]$ $\frac{\partial L}{\partial F} = [\frac{\partial L _{0}}{\partial f _{1}}, . . . ., \frac{\partial L _{0}}{\partial f _{k}}]$
- 其中 k 表示主卷积核的个数
$F \leftarrow F - \eta \frac{\mathcal L}{F}$

先将 $\mathcal L_{ortho}$ $L_{o r t h o}$ 展开：
- $\mathcal L_{ortho} = \frac{1}{2}Tr[(\frac{1}{d^2c}M^TM-I)(\frac{1}{d^2c}M^TM-I)^T] = \frac{1}{2}Tr[\frac{1}{d^4c^2}M^TMM^TM - 2\frac{1}{d^2c}M^TM+I]$
所以：
- $\frac{\partial\mathcal L_{ortho}}{\partial M} = \frac{1}{2}(\frac{4}{d^4c^2}MM^TM - \frac{4}{d^2c}M) = \frac{2}{d^4c^2}MM^TM - \frac{2}{d^2c}M$
$\because$ 交换门， $\therefore \frac{\partial\mathcal L_{0}}{\partial M_j} = \sum_{i=1}^k\frac{\partial\mathcal L_{0}}{\partial\hat f_{ij}}\circ f_i$
$\frac{\partial\mathcal L}{\partial M} = [\frac{\partial\mathcal L_0}{\partial M_1},\ ...\ , \frac{\partial\mathcal L_0}{\partial M_s}] + \lambda \frac{\partial\mathcal L_{ortho}}{\partial M}$
因为 M 是 binary 的离散值，所以需要一个代理的连续变量 H，实现 直通估计器 STE 的作用
$M = sign(H),\ \ \ H = clip(H,0,1)$
$\frac{\partial\mathcal L}{\partial M}=\frac{\partial\mathcal L}{\partial H}$
$\begin{cases} H\leftarrow M\\ H\leftarrow clip(H-\eta \frac{\partial\mathcal L}{\partial H},0,1) \end{cases}$