Skip to main content
QUICK REVIEW

[论文解读] Compression Artifacts Removal Using Convolutional Neural Networks

Pavel Svoboda, Michal Hradiš|arXiv (Cornell University)|May 2, 2016
Advanced Image Processing Techniques参考文献 28被引用 125
一句话总结

这篇论文训练带残差学习和跳跃连接的大型深度卷积神经网络以去除 JPEG 压缩伪影,在 PSNR、PSNR-B、和 SSIM 上相对于 AR-CNN、SA-DCT、和 spp 在标准数据集上实现了最先进的结果。

ABSTRACT

This paper shows that it is possible to train large and deep convolutional neural networks (CNN) for JPEG compression artifacts reduction, and that such networks can provide significantly better reconstruction quality compared to previously used smaller networks as well as to any other state-of-the-art methods. We were able to train networks with 8 layers in a single step and in relatively short time by combining residual learning, skip architecture, and symmetric weight initialization. We provide further insights into convolution networks for JPEG artifact reduction by evaluating three different objectives, generalization with respect to training dataset size, and generalization with respect to JPEG quality level.

研究动机与目标

  • 以超越小型体系结构的卷积网络进行 JPEG 伪影的图像恢复为动机。
  • 开发并评估具有残差和跳跃连接的深度 FCN 架构以进行伪影去除。
  • 研究初始化、学习目标和训练策略如何影响收敛和性能。
  • 评估跨不同 JPEG 质量等级和训练数据集大小的泛化。

提出的方法

  • 使用完全卷积网络 (L4 和 L8),分别具有 4 层和 8 层。
  • 通过预测图像残差而不是直接映射来采用残差学习。
  • 通过将早期层的激活与更深层连接起来来纳入跳跃架构。
  • 实验三种目标:直接映射、残差学习、以及边缘保持损失(Sob severity)。
  • 将初始化时的滤波器居中以实现对称权重初始化并允许更高的学习率。
  • 在 BSDS500(400 张图像)上训练,并在 LIVE1 和 BSDS500 验证集上使用 PSNR、PSNR-B、和 SSIM 进行评估。
  • 与 SOTA 方法(AR-CNN、SA-DCT、spp)进行比较并分析跨 JPEG 质量等级和数据集大小的泛化。

实验结果

研究问题

  • RQ1大宽深度 CNN 是否能超越此前 JPEG 伪影去除的 state-of-the-art 方法?
  • RQ2残差学习、直接映射、以及边缘保持损失对重建质量的影响是什么?
  • RQ3网络在不同 JPEG 质量等级和训练数据规模上的泛化能力如何?
  • RQ4网络架构(L4 vs L8)和初始化对训练速度与性能有何影响?
  • RQ5在实际部署中,计算速度与参数数量的权衡是什么?

主要发现

  • L8 残差网络在 LIVE1 与 BSDS500 上的 PSNR、PSNR-B、和 SSIM 在测试质量中超越所有其他方法。(表3和表4)
  • 残差学习比直接映射收敛更快,使得更深的网络(如 8 层)在合理的迭代次数下也能训练(250k)。(图6,表5)
  • L4(较小的网络)在 400 张图像的 BSD 数据上具有良好泛化,通常优于竞争方法且更高效。
  • 边缘保持损失对 L4 相比残差学习并无明显改进(表5)。
  • 在 GTX 780 with cuDNN 的训练速度:L4 处理 1 MPx 在 220 ms;L8 处理在 1052 ms;L4 每像素约 140k FLOPs,L8 ~440k 每像素。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。