Zhangzhe's Blog

The projection of my life.

0%

Deformable 3D Convolution for Video Super-Resolution

URL

https://arxiv.org/pdf/2004.02803.pdf

TL;DR

  1. Deformable 3D 简称 D3D,是 C3DDeformable
  2. 在视频超分中引入了可变形3D卷积,看上去很合理
  3. 使用的超分网络结构很简单,与 VDSR 有一点相似

Dataset/Algorithm/Model/Experiment Detail

Algorithm

1. D3D:3D 卷积的可变形版本(或者说可变性卷积的3D版)

deform1.png
可变形2D卷积全过程(图来自论文Deformable Convolutional Networks
deform2.png
可变形3D卷积全过程 (图来自本论文)您这也太像了吧

C3D计算过程:

y(p0)=n=1Nw(pn)x(p0+pn)y(p_0) = \sum_{n=1}^Nw(p_n)*x(p_0 + p_n)
其中 p0p_0 表示卷积核中心所在feature上的位置, pnp_n 表示卷积核到中心偏移,由于是C3D所以, N=27N=27pn={(1,1,1),(1,1,0),...,(1,1,0),(1,1,1)}p_n = \{(-1,-1,-1), (-1,-1,0),...,(1,1,0),(1,1,1)\}

D3D计算过程

y(p0)=n=1Nw(pn)x(p0+pn+Δpn)y(p_0) = \sum_{n=1}^Nw(p_n)*x(p_0 + p_n + \Delta p_n)
pnp_n 表示到卷积核到原始位置的偏移, pn+Δpnp_n + \Delta p_n 表示卷积核到中心偏移

2. 超分网络结构

deform3.png
图中’Conv‘表示C3D,3x3 Conv表示2D Conv
输入:连续 3 / 5 / 7 frames

Thoughts

  1. 对比了C3D和D3D的效果,说明D3D还是有点用的
  2. EDVR对比可知,即使D3D单个算子再强大,网络设计也十分重要!
  3. 速度好慢,flops好大
  4. 脑补C3DDConv作者会由衷的说一句:优(jiu)秀(zhe?)

3. 算法效果对比

deform4.png
deform5.png
输入帧数与算法效果的关系:
deform6.png
deform7.png
deform8.png
为什么不和paperswithcode里的VSR模型比一比?
Vid4数据集上:
deform9.png
论文中对比结果巧妙的避开了前五(截图于 2020-08-01),优秀