URL
https://arxiv.org/pdf/2012.02181.pdf
TL;DR
- 将 VSR 任务所需的网络结构拆分成四个部分,分别是
Propagation
、Alignment
、Aggregation
、Upsampling
,并对常见的 VSR 模型进行了总结 - 只使用常见结构没有使用奇怪操作建立了 BasicVSR 结构和针对 BasicVSR 的改进版 IconVSR,达到了当时的 SOTA
- 代码开源在:mmediting
BasicVSR
对常见的 VSR 模型结构的总结
BasicVSR 总体结构
Propagation
- 从重建后 PSNR 角度证明了 双向传播结构比单向传播结构和局部不传播结构更好
Alignment
- 同样从重建后 PSNR 角度证明了 VSR 任务中,特征对齐比图像对齐和不对齐效果更好,相较于特征对齐,图像对齐重建后平均 PSNR 降低 0.17dB,不对齐重建后平均 PSNR 降低 1.19dB
- 本文的对齐模块使用基于光流对齐的方式,即: 双向视频光流估计 + Warp feature + 残差,光流估计网络用的 SPyNet
Aggregation
- 双向传播 + 双向对齐后的 feature 直接 concat
Upsampling
- PixelShuffle
IconVSR
在 BasicVSR 的基础上增强了 Propagation
和 Aggregation
两个部分:
Aggregation
部分加入了一个Information-Refill
结构,对关键帧额外做一次图像级的前后帧信息融合,从代码上看是用 EDVR 做前后帧信息融合Propagation
是将之前的Bidirectional Propagation
变成Coupled Bidirectional Propagation
,具体来说就是将 BasicVSR 中的独立的双向传播变成了串联的双向传播
最终结果
Thoughts
- 将 VSR 任务的模型结构解耦,每个部分单独做 Ablation experiment,感觉作为一个 VSR 任务的 baseline 是不错的