[论文解读] Deep Convolution Networks for Compression Artifacts Reduction
本文提出AR-CNN,一种深度卷积网络,可有效减少JPEG、JPEG 2000以及Twitter等真实世界压缩图像中的多种压缩伪影(如块效应、振铃效应和模糊)。通过集成特征增强层并利用步长大尺度转置卷积与滤波器映射技术加速网络,该方法在性能损失可忽略的情况下实现7.5倍加速,优于基准数据集和真实世界数据集上的最先进方法。
Lossy compression introduces complex compression artifacts, particularly blocking artifacts, ringing effects and blurring. Existing algorithms either focus on removing blocking artifacts and produce blurred output, or restore sharpened images that are accompanied with ringing effects. Inspired by the success of deep convolutional networks (DCN) on superresolution, we formulate a compact and efficient network for seamless attenuation of different compression artifacts. To meet the speed requirement of real-world applications, we further accelerate the proposed baseline model by layer decomposition and joint use of large-stride convolutional and deconvolutional layers. This also leads to a more general CNN framework that has a close relationship with the conventional Multi-Layer Perceptron (MLP). Finally, the modified network achieves a speed up of 7.5 times with almost no performance loss compared to the baseline model. We also demonstrate that a deeper model can be effectively trained with features learned in a shallow network. Following a similar "easy to hard" idea, we systematically investigate three practical transfer settings and show the effectiveness of transfer learning in low-level vision problems. Our method shows superior performance than the state-of-the-art methods both on benchmark datasets and a real-world use case.
研究动机与目标
- 解决在JPEG、JPEG 2000以及Twitter等专有方案等多样化压缩标准下,同时去除复杂、与信号相关的压缩伪影(如块效应、振铃效应和模糊)的挑战。
- 克服现有方法的局限性,这些方法或仅针对特定伪影(如仅块效应)进行优化,或导致输出图像模糊或增强振铃效应。
- 开发一种可泛化的端到端深度学习框架,有效处理多种伪影类型,而无需依赖问题特异性先验知识或压缩特定解码机制。
- 加速网络以实现实时部署,同时保持高恢复质量,使该方法在带宽受限的应用中具备实际可用性。
- 通过在低层次视觉任务中利用迁移学习,展示其在训练深层模型方面的有效性,方法是利用浅层预训练网络的特征进行训练。
提出的方法
- 提出AR-CNN,一种包含四层的深度卷积网络,在第一卷积层后加入特征增强模块,以清理噪声特征并抑制伪影。
- 引入层分解与大步长卷积/转置卷积层,以加速推理,将计算成本降低7.5倍,且性能损失可忽略不计。
- 采用改进的网络架构,其结构与多层感知机(MLP)相似,从而在保持强大表征能力的同时实现高效的特征学习。
- 通过三种实用的“由易到难”设置应用迁移学习:从浅层网络微调权重、使用预训练权重初始化深层网络,以及逐步增加复杂度的渐进式训练。
- 优化超参数,包括步长大小(s=2被选为最优)、映射滤波器数量(n₄=64)以及网络深度,以在速度与精度之间取得平衡。
- 采用端到端训练方式,使用最小化像素级重建误差的损失函数,并通过数据增强与归一化提升泛化能力。
实验结果
研究问题
- RQ1深度卷积网络能否在多种压缩标准下,同时有效抑制块效应、振铃效应和模糊等多种压缩伪影?
- RQ2如何在不造成显著性能下降的前提下,加速深度学习模型以实现实时部署?
- RQ3迁移学习在低层次视觉任务(如压缩伪影去除)中能在多大程度上提升训练效率与模型性能?
- RQ4使用大步长卷积与转置卷积是否能在降低计算复杂度的同时保留图像细节?
- RQ5加速后的模型(Fast AR-CNN)在不同压缩质量及真实世界应用场景下,与基线AR-CNN和最先进方法相比,性能表现如何?
主要发现
- 在LIVE1数据集上,AR-CNN在JPEG质量q=10时达到29.13 dB的PSNR,优于现有最先进方法在PSNR与SSIM指标上的表现。
- Fast AR-CNN模型在实现7.5倍推理加速的同时,于q=10时达到29.07 dB的PSNR,仅比基线模型低0.06 dB,且保持了高水平的感知质量。
- 采用s=2的步长大小在速度与性能之间提供了最佳平衡,而s=3导致PSNR显著下降至28.78 dB,表明更大的步长会损失关键的恢复细节。
- 将映射滤波器数量从16增加到64,可使PSNR从29.07 dB提升至29.10 dB,且n₄=64后增益趋于平缓,验证了选择64个滤波器的合理性。
- Fast AR-CNN在低质量图像(q=10,20)上与基线模型表现相当,但在高质量图像(q=30,40)上出现性能差距,原因在于大步长在精细纹理区域造成的信息损失。
- 迁移学习显著提升了训练效率与模型性能,使利用浅层预训练模型的特征来有效训练深层网络成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。