[论文解读] Learning Deformable Kernels for Image and Video Denoising
论文通过 CNN 学习可变形的 2D 和 3D 内核,显式执行像素采样和加权,用于图像和视频去噪,改善对结构、对齐误差和大运动的处理。
Most of the classical denoising methods restore clear results by selecting and averaging pixels in the noisy input. Instead of relying on hand-crafted selecting and averaging strategies, we propose to explicitly learn this process with deep neural networks. Specifically, we propose deformable 2D kernels for image denoising where the sampling locations and kernel weights are both learned. The proposed kernel naturally adapts to image structures and could effectively reduce the oversmoothing artifacts. Furthermore, we develop 3D deformable kernels for video denoising to more efficiently sample pixels across the spatial-temporal space. Our method is able to solve the misalignment issues of large motion from dynamic scenes. For better training our video denoising model, we introduce the trilinear sampler and a new regularization term. We demonstrate that the proposed method performs favorably against the state-of-the-art image and video denoising approaches on both synthetic and real-world data.
研究动机与目标
- 在去噪中激发学习经典的选择与平均化过程,而不是依赖手工规则。
- 开发可变形内核,使采样位置和权重可适应图像结构,以提升去噪质量。
- 扩展到 3D 可变形内核,以处理视频去噪中的大运动并减少伪影。
- 引入包括退火式正则化在内的训练策略,以在训练中稳定 3D 内核学习。
- 在合成数据和真实数据上,与最先进的图像与视频去噪方法进行评估。
提出的方法
- 使用 CNN(偏移网络)估计逐像素的可变形内核偏移。
- 在预测的偏移位置利用双线性/三线性插值从嘈杂输入中采样像素。
- 通过拼接的采样像素、输入与偏移特征计算时变的核权重 F,形成 Y = sum X(sampled) * F。
- 对于视频,使用跨时空的 3D 可变形内核,采用三线性插值进行采样。
- 引入退火正则化,在训练中鼓励跨内核分组的多样化时间采样。
- 端到端在线性空间中训练,并可选进行伽马校正以提升感知质量。
实验结果
研究问题
- RQ1可变形、可学习的采样网格能否在图像和视频去噪中优于固定刚性内核?
- RQ2与 2D 方法相比,3D 可变形内核是否更能处理大运动和动态场景中的对齐误差?
- RQ3退火式正则化是否改善视频去噪中的优化和时间上采样的利用?
- RQ4与最先进的去噪方法在合成数据和真实数据上的表现, learned 可变形内核如何比较?
主要发现
- 可变形内核学会自适应采样位置和权重,提升去噪质量并减少相对于刚性内核的伪影。
- 在大运动的视频中,3D 可变形内核通过将采样分散到更可靠的帧来优于 2D。
- 在合成实验中,该方法在单图像和视频去噪方面对比最先进方法实现有利的 PSNR/SSIM。
- 退火正则化有助于避免集中采样在参考帧周围的局部极小值,从而实现更广泛的时间利用。
- 该方法可推广到真实噪声图像和手机拍摄的视频,恢复边缘细节并减少伪影。
- 消融研究表明动态权重、可变形采样和退火对性能的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。