[论文解读] Burst Denoising with Kernel Prediction Networks
本文提出一种用于图像帧burst去噪的核预测网络(KPN),通过预测空间可变的3D滤波器,联合实现手持相机拍摄的多张噪点图像的对齐与去噪。该方法在基于真实噪声模型生成的合成数据上进行训练,并采用退火损失函数进行优化,在合成数据和真实世界数据上均优于当前最先进方法,尤其在高噪声和运动场景下表现优异,且在输入噪声估计的前提下可泛化至不同噪声水平。
We present a technique for jointly denoising bursts of images taken from a handheld camera. In particular, we propose a convolutional neural network architecture for predicting spatially varying kernels that can both align and denoise frames, a synthetic data generation approach based on a realistic noise formation model, and an optimization guided by an annealed loss function to avoid undesirable local minima. Our model matches or outperforms the state-of-the-art across a wide range of noise levels on both real and synthetic data.
研究动机与目标
- 为解决在低光照条件下由相机和场景运动导致的图像帧burst去噪问题,因图像间错位与噪声叠加,简单平均方法失效。
- 开发一种深度学习模型,通过单一网络架构联合实现对齐与去噪,避免伪影并保留精细细节。
- 通过引入噪声水平估计作为输入,实现对多种噪声水平的泛化能力,提升模型在训练分布外的鲁棒性。
- 构建一个数据生成流程,从后期处理的互联网图像合成逼真的原始图像帧burst,避免对真实标注数据的依赖。
提出的方法
- 该方法采用核预测网络(KPN),为每个输出像素预测唯一的3D滤波器(空间与时间维度),通过学习到的空间可变卷积实现联合去噪与对齐。
- 构建一个合成数据生成流程,基于物理成像原理建模散粒噪声与读出噪声,将后期处理图像转换为具有已知噪声参数的逼真原始帧burst。
- 在训练过程中采用退火损失函数,引导网络获得稳定且不易产生伪影的解,尤其在存在运动与错位时表现更优。
- 网络输入包括参考帧、其他帧以及每像素的噪声估计σ′,使其能够根据预期噪声水平自适应地加权不同帧的贡献。
- 该架构通过允许可视化预测的滤波核,实现视觉可解释性,揭示各帧对最终输出的贡献方式。
实验结果
研究问题
- RQ1在合成数据上训练的深度神经网络能否有效泛化至手持相机拍摄的真实世界图像帧burst?
- RQ2与直接像素生成相比,预测空间可变的3D滤波器是否能提升图像帧去噪性能?
- RQ3输入噪声估计的噪声感知网络是否能比盲去噪网络更好地泛化至广泛噪声水平?
- RQ4网络行为如何响应不同噪声水平的输入,特别是在处理运动与错位时有何变化?
主要发现
- 所提出的KPN模型在合成与真实世界图像帧burst上均优于当前最先进方法,尤其在低光照与高运动场景下表现突出,与HDR+、非局部均值及VBM4D的定性对比显示其优势。
- 该模型在Nexus 6P的真实数据上实现卓越性能,成功恢复阴影区域的精细细节,并避免因运动导致的模糊,尽管其仅在合成数据上进行训练。
- 当输入噪声水平估计时,网络能有效泛化至训练中未见的噪声水平,即使在4倍于训练噪声水平下仍保持高性能,这一结果在对数尺度性能曲线上得到验证。
- 网络行为可通过输入噪声估计进行控制:低估噪声会导致保守去噪,更依赖参考帧;高估噪声则增加对其他帧的依赖,使输出更平滑。
- 采用退火损失函数显著提升了训练稳定性,有助于避免局部极小值,尤其在帧间存在微小错位时效果明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。