Zhangzhe's Blog

The projection of my life.

0%

Deformable 3D Convolution for Video Super-Resolution

URL

https://arxiv.org/pdf/2004.02803.pdf

TL;DR

  1. Deformable 3D 简称 D3D,是 C3DDeformable
  2. 在视频超分中引入了可变形3D卷积,看上去很合理
  3. 使用的超分网络结构很简单,与 VDSR 有一点相似

Dataset/Algorithm/Model/Experiment Detail

Algorithm

1. D3D:3D 卷积的可变形版本(或者说可变性卷积的3D版)

deform1.png
可变形2D卷积全过程(图来自论文Deformable Convolutional Networks
deform2.png
可变形3D卷积全过程 (图来自本论文)您这也太像了吧

C3D计算过程:


$y(p_0) = \sum_{n=1}^Nw(p_n)*x(p_0 + p_n)$
其中 $p_0$ 表示卷积核中心所在feature上的位置, $p_n$ 表示卷积核到中心偏移,由于是C3D所以, $N=27$ , $p_n = \{(-1,-1,-1), (-1,-1,0),...,(1,1,0),(1,1,1)\}$ ### D3D计算过程
$y(p_0) = \sum_{n=1}^Nw(p_n)*x(p_0 + p_n + \Delta p_n)$
$p_n$ 表示到卷积核到原始位置的偏移, $p_n + \Delta p_n$ 表示卷积核到中心偏移 ## 2. 超分网络结构 ![deform3.png](https://i.loli.net/2021/09/04/qNWlp6C1T4X8uw3.png) **图中’Conv‘表示C3D,3x3 Conv表示2D Conv** 输入:连续 3 / 5 / 7 frames ## Thoughts 1. 对比了C3D和D3D的效果,说明D3D还是有点用的 2. 与[EDVR](https://arxiv.org/pdf/1905.02716.pdf)对比可知,即使D3D单个算子再强大,网络设计也十分重要! 3. 速度好慢,flops好大 4. 脑补[C3D](https://ieeexplore.ieee.org/document/7410867)的[DConv](https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf)作者会由衷的说一句:优(jiu)秀(zhe?) ## 3. 算法效果对比 ![deform4.png](https://i.loli.net/2021/09/04/ZBLQHNac3ixsXuk.png) ![deform5.png](https://i.loli.net/2021/09/04/rvE5inczPky7uTQ.png) 输入帧数与算法效果的关系: ![deform6.png](https://i.loli.net/2021/09/04/WUAOTtvZhLYzDXu.png) ![deform7.png](https://i.loli.net/2021/09/04/g9zBL8kYeuIWR5U.png) ![deform8.png](https://i.loli.net/2021/09/04/9uJvpgMiqDU1WHR.png) 为什么不和[paperswithcode](https://paperswithcode.com/sota/video-super-resolution-on-vid4-4x-upscaling)里的VSR模型比一比? **Vid4数据集上:** ![deform9.png](https://i.loli.net/2021/09/04/jJkKzqVPmxDH5hA.png) 论文中对比结果巧妙的避开了前五(截图于 2020-08-01),~~优秀~~