[论文解读] Deep Video Deblurring
本文提出一种端到端的深度学习方法用于视频去模糊,通过利用相邻帧之间的时序信息,无需显式图像对齐。基于使用高速摄像机拍摄的真实世界数据集,该方法训练一个卷积神经网络(CNN)来跨帧聚合清晰特征,在计算成本极低的情况下实现最先进(SOTA)的性能,并对对齐错误具有强鲁棒性,甚至优于依赖光流或单应性变换对齐的方法。
Motion blur from camera shake is a major problem in videos captured by hand-held devices. Unlike single-image deblurring, video-based approaches can take advantage of the abundant information that exists across neighboring frames. As a result the best performing methods rely on aligning nearby frames. However, aligning images is a computationally expensive and fragile procedure, and methods that aggregate information must therefore be able to identify which regions have been accurately aligned and which have not, a task which requires high level scene understanding. In this work, we introduce a deep learning solution to video deblurring, where a CNN is trained end-to-end to learn how to accumulate information across frames. To train this network, we collected a dataset of real videos recorded with a high framerate camera, which we use to generate synthetic motion blur for supervision. We show that the features learned from this dataset extend to deblurring motion blur that arises due to camera shake in a wide range of videos, and compare the quality of results to a number of other baselines.
研究动机与目标
- 为解决手持视频中因相机抖动导致的运动模糊问题,这是消费级视频拍摄中的普遍问题。
- 开发一种数据驱动的视频去模糊方法,避免使用脆弱且计算成本高昂的图像对齐流程。
- 端到端训练深度神经网络,学习跨帧最优特征聚合以实现去模糊。
- 使用高速帧率录制数据创建真实、高保真的训练数据集,以模拟真实世界中的模糊。
- 展示对多种模糊类型(包括物体运动和低光照条件)的泛化能力。
提出的方法
- 该方法采用类似U-Net的自编码器结构,通过跳跃连接从一组模糊的相邻帧中重建清晰帧。
- 通过在高帧率下录制视频并施加合成运动模糊来构建真实世界数据集,以模拟相机抖动。
- 网络端到端训练,直接预测清晰输出像素,跳过显式对齐或图像扭曲步骤。
- 评估多种配置:无对齐、基于单应性的对齐、基于光流的对齐。
- 通过训练过程中学习的特征级注意力机制,模型能够识别并抑制错位区域引起的伪影。
- 监督信号通过预测帧与真实清晰帧之间的像素级L1损失提供。
实验结果
研究问题
- RQ1深度神经网络是否能够无需显式图像对齐实现视频去模糊?其性能与依赖对齐的方法相比如何?
- RQ2在仅使用相机抖动模糊数据进行训练的模型,能在多大程度上泛化到其他类型的模糊(如物体运动或低光照模糊)?
- RQ3不同对齐策略下网络性能如何变化?是否能在完全无对齐的情况下实现高质量输出?
- RQ4端到端学习特征聚合是否优于传统的基于块的融合或基于反卷积的方法?
- RQ5网络架构和训练数据质量对泛化能力和鲁棒性有何影响?
主要发现
- 所提方法在定性和定量评估中均达到最先进性能,PSNR指标显著优于现有基线方法。
- 即使完全不使用对齐(dbn+noalign),模型仍能生成高质量去模糊结果,证明其对错位具有强鲁棒性。
- 基于光流的对齐获得最佳性能,但基于单应性的对齐在计算成本显著降低的情况下仍能提供相近结果。
- 尽管训练数据以相机抖动模糊为主,模型在未见场景(包括室内、低光照、物体运动模糊)中仍表现出良好泛化能力。
- 该方法效率极高,每帧处理时间少于1秒,显著优于依赖对齐的基线方法(后者每帧需数分钟)。
- 对学习滤波器的可视化显示,网络能够检测边缘、颜色通道和形变伪影,表明其具备有效的特征学习能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。