[论文解读] TDAN: Temporally Deformable Alignment Network for Video Super-Resolution
TDAN 引入了一阶段的特征级时间对齐,使用可变形卷积将辅助帧与参考帧对齐用于视频超分辨率,在 Vid4 BI 降级上达到最先进的结果,并在其他场景具有竞争力的表现。
Video super-resolution (VSR) aims to restore a photo-realistic high-resolution (HR) video frame from both its corresponding low-resolution (LR) frame (reference frame) and multiple neighboring frames (supporting frames). Due to varying motion of cameras or objects, the reference frame and each support frame are not aligned. Therefore, temporal alignment is a challenging yet important problem for VSR. Previous VSR methods usually utilize optical flow between the reference frame and each supporting frame to wrap the supporting frame for temporal alignment. Therefore, the performance of these image-level wrapping-based models will highly depend on the prediction accuracy of optical flow, and inaccurate optical flow will lead to artifacts in the wrapped supporting frames, which also will be propagated into the reconstructed HR video frame. To overcome the limitation, in this paper, we propose a temporal deformable alignment network (TDAN) to adaptively align the reference frame and each supporting frame at the feature level without computing optical flow. The TDAN uses features from both the reference frame and each supporting frame to dynamically predict offsets of sampling convolution kernels. By using the corresponding kernels, TDAN transforms supporting frames to align with the reference frame. To predict the HR video frame, a reconstruction network taking aligned frames and the reference frame is utilized. Experimental results demonstrate the effectiveness of the proposed TDAN-based VSR model.
研究动机与目标
- 在不显式估计光流的情况下,激发鲁棒的视频超分辨率(VSR)。
- 开发一个轻量级、端到端可训练的框架,在特征层将支持帧对齐到参考帧。
- 提出一种可变形对齐机制,预测采样偏移以实现自适应时间对齐。
- 在标准 VSR 基准上展示相较基于光流的方法的更高重建质量。
提出的方法
- 提出 TDAN,一种时序可变形对齐网络,利用参考帧和支持帧的特征来预测可变形卷积核的偏移。
- 采用三部分的 TDAN 设计:特征提取、带有预测采样偏移的可变形对齐,以及对齐后帧重建以产生 I_i^{LR'}。
- 整合一个重建网络,融合 2N+1 帧(包括参考帧)以预测高分辨率帧 I_t^{HR}。
- 端到端训练,使用双重损失:L_align 将对齐的支持帧推向参考帧,L_sr 强化高分辨率重建的准确性。
- 通过自监督使用参考帧作为对齐目标来对 TDAN 进行训练(不需要真实对齐帧的地面真值)。
实验结果
研究问题
- RQ1一阶段、基于特征层的时序对齐通过可变形卷积是否能够在 VSR 中超越传统的基于光流的对齐?
- RQ2在标准基准上,与基于光流的方法和单图像超分方法相比,TDAN 驱动的对齐对 PSNR/SSIM 的影响如何?
- RQ3改变可变形层数量对 TDAN 性能和收敛性的影响是什么?
- RQ4TDAN 对不同降解配置和真实世界未知降解是否具有鲁棒性?
主要发现
- TDAN 在基于光流的 VSR 方法中实现了最先进的性能,并且在 BI 降级(Vid4)上与 SISR 基线相比具有竞争力的结果。
- 在 Vid4 BI 设置(City、Walk、Calendar、Foliage)中,TDAN 在 PSNR 和 SSIM 上优于 TOFlow 及其他基于光流的方法,具有平均增益。
- 在 BD 降级下,TDAN 通常在 PSNR 上超过 SPMC 和 FRVSR,但在 SSIM 上可能被 DUF 超越,尽管仍具竞争力。
- TDAN 的模型大小与 FRVSR/DUF 相当,明显小于领先的 SISR 模型如 RCAN/RDN/TOFlow,同时提供强劲的 VSR 结果。
- 消融实验表明更多的可变形层可提升性能,D4(尺寸与 FRVSR/DUF 相当)在多种设置下实现了最先进的结果。
- TDAN 在真实世界序列、未知降解条件下具有鲁棒性,能产生比竞争方法更清晰的边缘和更多细节。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。