Skip to main content
QUICK REVIEW

[论文解读] Spatio-Temporal Filter Adaptive Network for Video Deblurring

Shangchen Zhou, Jiawei Zhang|arXiv (Cornell University)|Apr 28, 2019
Advanced Image Processing Techniques参考文献 46被引用 24
一句话总结

该论文提出了一种时空滤波自适应网络(STFAN)用于视频去模糊,通过一种新型的滤波自适应卷积(FAC)层,联合执行时间对齐与去模糊。通过从三元组输入(前一帧模糊帧与重建帧、当前帧模糊帧)动态生成空间自适应滤波器,STFAN 避免了显式的光流估计,有效处理空间变化模糊,在基准数据集上实现了最先进的 PSNR(31.24)与 SSIM(0.934)性能,同时提升了速度与模型效率。

ABSTRACT

Video deblurring is a challenging task due to the spatially variant blur caused by camera shake, object motions, and depth variations, etc. Existing methods usually estimate optical flow in the blurry video to align consecutive frames or approximate blur kernels. However, they tend to generate artifacts or cannot effectively remove blur when the estimated optical flow is not accurate. To overcome the limitation of separate optical flow estimation, we propose a Spatio-Temporal Filter Adaptive Network (STFAN) for the alignment and deblurring in a unified framework. The proposed STFAN takes both blurry and restored images of the previous frame as well as blurry image of the current frame as input, and dynamically generates the spatially adaptive filters for the alignment and deblurring. We then propose the new Filter Adaptive Convolutional (FAC) layer to align the deblurred features of the previous frame with the current frame and remove the spatially variant blur from the features of the current frame. Finally, we develop a reconstruction network which takes the fusion of two transformed features to restore the clear frames. Both quantitative and qualitative evaluation results on the benchmark datasets and real-world videos demonstrate that the proposed algorithm performs favorably against state-of-the-art methods in terms of accuracy, speed as well as model size.

研究动机与目标

  • 为解决由相机抖动、物体运动与深度变化引起的视频中空间变化模糊问题。
  • 克服现有方法依赖不准确光流估计进行对齐与去模糊的局限性。
  • 将时间对齐与去模糊统一为一个无需显式运动场预测的端到端联合框架。
  • 开发一种灵活的自适应滤波机制,以处理特征空间中的非均匀模糊。
  • 提升在大运动与严重模糊的真实世界视频中的去模糊性能。

提出的方法

  • STFAN 网络采用三元组输入:前一帧模糊帧 $B_{t-1}$、前一帧重建帧 $R_{t-1}$ 与当前帧模糊帧 $B_t$。
  • 提出一种滤波自适应卷积(FAC)层,可动态生成用于对齐与去模糊分支中特征变换的空间可变滤波器。
  • FAC 层将学习到的滤波器应用于下采样后的特征,实现使用更小滤波器尺寸获得更大感受野,并支持通道特定的自适应。
  • 对齐分支利用 FAC 将前一帧特征进行特征映射,以对齐至当前帧,无需显式光流或图像变形。
  • 去模糊分支利用 FAC 直接从特征中去除空间变化模糊,操作于特征空间。
  • 重建网络融合来自两个分支的变换特征,生成最终清晰帧。

实验结果

研究问题

  • RQ1统一的网络架构是否能在不依赖显式光流估计的情况下,有效同时完成视频去模糊中的对齐与去模糊?
  • RQ2同时使用前一时刻的重建帧与模糊帧如何改善运动建模与模糊处理?
  • RQ3动态生成的空间自适应滤波器是否能优于固定或估计的核,在处理空间变化模糊方面表现更优?
  • RQ4FAC 层的设计对性能有何影响,特别是在感受野与特征变换效率方面?
  • RQ5三元组输入(B_{t-1}, R_{t-1}, B_t)相较于更简单的输入,在建模动态场景模糊方面表现如何?

主要发现

  • 所提出的 STFAN 在基准数据集上实现了 31.24 的 PSNR 与 0.934 的 SSIM,两项指标均优于当前最先进方法。
  • 消融实验表明,若移除对齐或去模糊分支中的 FAC 层,性能显著下降,PSNR 分别降至 30.59 与 30.92。
  • 三元组输入(R_{t-1}, B_{t-1}, B_t)性能最佳,优于仅使用(B_{t-1}, B_t)或(R_{t-1}, B_t)的变体,PSNR 分别为 31.24、30.87 与 30.85。
  • 更大的自适应滤波器尺寸(k=9)相较于 k=5 仅带来微小增益,因此选择 k=5 作为性能与计算成本之间的实用权衡。
  • FAC 层实现了无需显式光流的高效特征映射与去模糊,定性结果表明对齐与去模糊是隐式完成的。
  • 该模型在速度、准确率与模型大小之间实现了良好平衡,k=5 时仅需 5.37M 参数,展现出面向实际部署的高效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。