Skip to main content
QUICK REVIEW

[论文解读] Revisiting Temporal Modeling for Video Super-resolution

Takashi Isobe, Fang Zhu|arXiv (Cornell University)|Aug 13, 2020
Advanced Image Processing Techniques参考文献 25被引用 63
一句话总结

论文比较三种时序建模方案(2D CNN 早期融合、3D CNN 慢融合、RNN)用于视频超分辨率,并提出一个重复残差网络(RRN),在效率更高的同时实现了最先进的结果。

ABSTRACT

Video super-resolution plays an important role in surveillance video analysis and ultra-high-definition video display, which has drawn much attention in both the research and industrial communities. Although many deep learning-based VSR methods have been proposed, it is hard to directly compare these methods since the different loss functions and training datasets have a significant impact on the super-resolution results. In this work, we carefully study and compare three temporal modeling methods (2D CNN with early fusion, 3D CNN with slow fusion and Recurrent Neural Network) for video super-resolution. We also propose a novel Recurrent Residual Network (RRN) for efficient video super-resolution, where residual learning is utilized to stabilize the training of RNN and meanwhile to boost the super-resolution performance. Extensive experiments show that the proposed RRN is highly computational efficiency and produces temporal consistent VSR results with finer details than other temporal modeling methods. Besides, the proposed method achieves state-of-the-art results on several widely used benchmarks.

研究动机与目标

  • 评估不同时序建模方法(2D 早期融合、3D 慢融合、和 RNN)对 VSR 性能的影响。
  • 在固定损失函数(L1)和公开训练集(Vimeo-90k)下建立公平比较。
  • 提出一种高效的递归架构(RRN),带残差连接以稳定训练并保留纹理细节。
  • 证明 RRN 在实现强大超分辨率质量的同时,提供更优的速度-效率权衡。
  • 在标准 VSR 基准(Vid4、SPMCS、UDM10)上提供实证证据。

提出的方法

  • 在相同深度和固定的 L1 损失下评估三种时序建模方法:2D CNN 早期融合、3D CNN 慢融合、和 RNN。
  • 引入 Residual Recurrent Network (RRN),在隐藏状态中引入 identitySkip 以稳定训练并在长序列上保留纹理细节。
  • 对于 RRN,定义将两帧输入耦合到跨 K 个块的残差学习的隐藏状态方程(如 Eq. 3)。
  • 在 Vimeo-90k 上训练所有模型,LR 为 64 像素的补丁(HR 下采样 4x,使用高斯模糊,sigma=1.6),并在 Vid4、SPMCS、UDM10 上评估。
  • 在亮度和颜色通道上使用 PSNR/SSIM 比较性能,并对隐藏状态中的残差连接进行消融分析。

实验结果

研究问题

  • RQ1在固定损失和数据集条件下,2D 早期融合、3D 慢融合和 RNN 的时序建模策略在视频超分辨率中表现如何?
  • RQ2递归残差结构是否改善 VSR 的稳定性、纹理保留和时间一致性?
  • RQ3在计算效率和 SR 质量之间,这些时序建模方法的权衡如何?
  • RQ4所提出的 RRN 是否能在标准 VSR 基准上取得最先进的结果且具有具有竞争力的运行时?
  • RQ5在 RRN 隐藏状态中包含恒等映射(identity mapping)如何影响梯度稳定性和性能?

主要发现

  • 基于 RRN 的方法在 Vid4、SPMCS、UDM10 上比 3D CNN 方法具更高的计算效率,同时实现更优的 PSNR/SSIM。
  • RRN-L 在 Vid4、SPMCS、UDM10 的 PSNR 分别比 3D CNN-L 高出 0.44/0.20/0.54 dB,且速度超过 23 倍以上。
  • RRN 隐藏状态中的残差学习稳定了训练并允许更深的隐藏状态,从而提升 VSR 性能。
  • 基于 RNN 的方法表现出比基于 CNN 的时序模型更优的时间一致性和较少的闪烁。
  • RRN 在三个公开基准上实现了最先进的结果,并在运行时上具有竞争力(如 RRN-S 720p 约 33fps,RRN-L 约 22fps)。
  • 在他们的实验中,显式的运动补偿方法并未超过提出的隐式时序建模方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。