[论文解读] Wide Inference Network for Image Denoising via Learning Pixel-distribution Prior
本文提出广义推理网络(WIN),一种浅层但宽层的卷积神经网络,通过从含噪图像中学习像素分布先验,提升图像去噪性能。通过增大滤波器尺寸和通道宽度——尤其在浅层中——WIN能够捕捉加性白高斯噪声(AWGN)的统计规律性,在参数量和数据量少于更深网络的情况下,实现最先进性能。
We explore an innovative strategy for image denoising by using convolutional neural networks (CNN) to learn similar pixel-distribution features from noisy images. Many types of image noise follow a certain pixel-distribution in common, such as additive white Gaussian noise (AWGN). By increasing CNN's width with larger reception fields and more channels in each layer, CNNs can reveal the ability to extract more accurate pixel-distribution features. The key to our approach is a discovery that wider CNNs with more convolutions tend to learn the similar pixel-distribution features, which reveals a new strategy to solve low-level vision problems effectively that the inference mapping primarily relies on the priors behind the noise property instead of deeper CNNs with more stacked nonlinear layers. We evaluate our work, Wide inference Networks (WIN), on AWGN and demonstrate that by learning pixel-distribution features from images, WIN-based network consistently achieves significantly better performance than current state-of-the-art deep CNN-based methods in both quantitative and visual evaluations. extit{Code and models are available at \url{https://github.com/cswin/WIN}}.
研究动机与目标
- 解决深度卷积神经网络在图像去噪等低层次视觉任务中泛化能力有限且性能增益不足的问题。
- 探究网络宽度(定义为滤波器尺寸和通道数)是否能通过改善噪声去除的先验学习能力来提升性能。
- 证明从含噪图像中学习像素分布特征,可优于基于深度驱动的架构在去噪任务中的表现。
- 通过利用固有的噪声分布先验而非大量数据增强,探索一种数据高效的训练策略。
提出的方法
- 设计一种浅层但宽层的卷积神经网络架构(WIN5),包含5个卷积层,早期层使用大卷积核尺寸(7×7)和高通道数(128),以扩展感受野。
- 采用批量归一化(BN)和残差学习,以稳定训练并保持先验估计,增强网络对统计特征的记忆能力。
- 使用含噪-干净图像对进行端到端监督学习,重点学习AWGN的底层像素分布先验。
- 通过跳跃连接作为关联记忆,保留推理过程中的统计先验,提升特征表示能力,同时不增加网络深度。
- 通过调整各层的滤波器尺寸和通道数对网络进行优化,发现前两层采用128个滤波器和7×7卷积核时性能最优。
- 在训练过程中使用固定噪声矩阵(以randn('seed',0)初始化)来模拟一致的噪声分布,尽管这限制了在不同噪声实现之间的泛化能力。
实验结果
研究问题
- RQ1通过增加网络宽度(滤波器尺寸和通道数)而非深度,是否能通过更好地捕捉像素分布先验,提升图像去噪性能?
- RQ2通过更宽的卷积操作学习噪声的统计分布(如AWGN),是否能实现优于深层架构的泛化能力和性能?
- RQ3在仅使用较少图像且不进行数据增强的情况下,浅层宽网络在多大程度上能超越深层网络?
- RQ4噪声模拟方式的选择(如固定噪声与每张图像随机噪声)如何影响去噪模型的泛化能力?
- RQ5能否通过网络架构设计有效嵌入噪声分布的先验知识,从而减少对深度和数据增强的依赖?
主要发现
- WIN5在BSD100和BSD200数据集上的AWGN去噪任务中达到最先进PSNR性能,尽管层数更少,仍优于DnCNN和RED-Net。
- 采用2L(128×7×7)+2L(64×7×7)+1L(1×7×7)结构的变体版本,性能与WIN5非常接近,同时显著降低了模型复杂度。
- WIN5在仅使用200张图像且不进行数据增强的情况下训练,仍优于需要400张图像并进行数据增强的DnCNN,证明其具有卓越的数据效率。
- 实验表明,更宽的网络(大感受野)在学习像素分布先验方面比更深的网络更有效,尤其在低层次视觉任务中。
- 当退化条件受控时,性能随深度增加而提升,但宽度在先验学习和去噪精度方面始终是主导因素。
- 当噪声未一致种子化时(如使用randn而不固定种子),模型性能显著下降,表明其在不同噪声实现之间泛化能力存在关键缺陷。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。