QUICK REVIEW

[论文解读] Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring

Seungjun Nah|arXiv (Cornell University)|Dec 7, 2016

Advanced Image Processing Techniques参考文献 29被引用 33

一句话总结

本文提出一种用于动态场景去模糊的深度多尺度卷积神经网络，通过端到端学习从模糊图像到清晰图像的映射，绕过了显式模糊核估计。该模型在基于高速相机采集的真实模糊与真实清晰图像组成的新型数据集上进行训练，在定性和定量指标上均达到最先进性能，PSNR、SSIM 和运行时间均优于先前方法。

ABSTRACT

Non-uniform blind deblurring for general dynamic scenes is a challenging computer vision problem as blurs arise not only from multiple object motions but also from camera shake, scene depth variation. To remove these complicated motion blurs, conventional energy optimization based methods rely on simple assumptions such that blur kernel is partially uniform or locally linear. Moreover, recent machine learning based methods also depend on synthetic blur datasets generated under these assumptions. This makes conventional deblurring methods fail to remove blurs where blur kernel is difficult to approximate or parameterize (e.g. object motion boundaries). In this work, we propose a multi-scale convolutional neural network that restores sharp images in an end-to-end manner where blur is caused by various sources. Together, we present multi-scale loss function that mimics conventional coarse-to-fine approaches. Furthermore, we propose a new large-scale dataset that provides pairs of realistic blurry image and the corresponding ground truth sharp image that are obtained by a high-speed camera. With the proposed model trained on this dataset, we demonstrate empirically that our method achieves the state-of-the-art performance in dynamic scene deblurring not only qualitatively, but also quantitatively.

研究动机与目标

为解决传统去模糊方法依赖于简化的模糊核假设所带来的局限性，特别是在具有非均匀运动和深度变化的复杂动态场景中。
克服现有基于CNN的方法依赖于具有不切实际核模型的合成模糊数据集的不足。
开发一种端到端的深度学习框架，隐式建模复杂且空间变化的模糊核，而无需显式估计模糊核。
构建一个大规模、逼真的模糊图像与真实清晰图像对数据集，通过高速相机捕获，以支持有效的监督训练。

提出的方法

提出一种类似U-Net的多尺度CNN架构，模拟从粗到精的优化过程，通过跨尺度的跳跃连接保留高频细节。
采用多尺度损失函数，在多个分辨率层级上结合内容损失，以提升收敛速度和特征学习能力。
引入对抗性损失组件，使用PatchGAN判别器以增强感知质量并减少伪影。
采用新型数据集采集方法：捕获动态场景的高速序列，并对帧进行平均以模拟真实模糊，同时应用伽马校正。
使用Adam优化器联合训练生成器与判别器，采用学习率衰减策略，最小化组合损失：$\mathcal{L}_{total} = \mathcal{L}_{cont} + \lambda \times \mathcal{L}_{adv}$，其中$\lambda = 10^{-4}$。
应用数据增强技术以提升泛化能力，尤其针对复杂模糊模式（如运动边界和遮挡区域）具有优势。

实验结果

研究问题

RQ1在复杂动态场景中，深度学习模型是否能在不显式估计模糊核的情况下实现更优的去模糊性能？
RQ2多尺度损失函数如何提升端到端去模糊网络的收敛速度与图像质量？
RQ3通过高速相机捕获的真实世界模糊数据集在多大程度上能提升泛化能力与性能，相比合成数据集？
RQ4与标准损失函数相比，结合多尺度内容损失与对抗性损失是否能带来更好的感知质量并减少伪影？
RQ5在真实世界与合成基准测试中，该方法在速度与精度方面与最先进方法相比表现如何？

主要发现

在GOPRO数据集上，该方法在K=2尺度下达到PSNR 29.23和SSIM 0.9162，显著优于先前方法，如Sun等人[26]（PSNR: 24.64, SSIM: 0.8429）和Kim与Lee[15]（PSNR: 23.64, SSIM: 0.8239）。
在K=3时，该方法每张图像运行时间为3.09秒，比Sun等人[26]的基线方法（耗时20分钟）快超过20倍。
在Köhler数据集上，该方法在K=3时达到PSNR 26.48和MSSIM 0.8116，两项指标均超越此前最先进方法。
定性结果表明，该方法能有效恢复运动边界和遮挡区域的锐利边缘与细节，避免了基于核估计方法常见的振铃伪影。
由于在真实、无核的训练数据集上进行训练，该模型对未见过的模糊模式（包括非线性和复杂运动）具有良好的泛化能力。
消融实验表明，多尺度损失与对抗性损失的结合显著提升了感知质量与收敛性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。