Zhangzhe's Blog

The projection of my life.

0%

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

URL

https://arxiv.org/pdf/2012.02181.pdf

TL;DR

  • 将 VSR 任务所需的网络结构拆分成四个部分,分别是 PropagationAlignmentAggregationUpsampling,并对常见的 VSR 模型进行了总结
  • 只使用常见结构没有使用奇怪操作建立了 BasicVSR 结构和针对 BasicVSR 的改进版 IconVSR,达到了当时的 SOTA
  • 代码开源在:mmediting

BasicVSR

对常见的 VSR 模型结构的总结

bvsr1.png

BasicVSR 总体结构

bvsr2.png

Propagation

  • 从重建后 PSNR 角度证明了 双向传播结构比单向传播结构和局部不传播结构更好

Alignment

  • 同样从重建后 PSNR 角度证明了 VSR 任务中,特征对齐比图像对齐和不对齐效果更好,相较于特征对齐,图像对齐重建后平均 PSNR 降低 0.17dB,不对齐重建后平均 PSNR 降低 1.19dB
  • 本文的对齐模块使用基于光流对齐的方式,即: 双向视频光流估计 + Warp feature + 残差,光流估计网络用的 SPyNet

Aggregation

  • 双向传播 + 双向对齐后的 feature 直接 concat

Upsampling

  • PixelShuffle

IconVSR

bvsr3.png

在 BasicVSR 的基础上增强了 PropagationAggregation 两个部分:

  • Aggregation 部分加入了一个 Information-Refill 结构,对关键帧额外做一次图像级的前后帧信息融合,从代码上看是用 EDVR 做前后帧信息融合
  • Propagation 是将之前的 Bidirectional Propagation 变成 Coupled Bidirectional Propagation,具体来说就是将 BasicVSR 中的独立的双向传播变成了串联的双向传播

最终结果

bvsr4.png

Thoughts

  • 将 VSR 任务的模型结构解耦,每个部分单独做 Ablation experiment,感觉作为一个 VSR 任务的 baseline 是不错的