Skip to main content
QUICK REVIEW

[论文解读] End-to-End Image Super-Resolution via Deep and Shallow Convolutional Networks

Yifan Wang, Lijun Wang|arXiv (Cornell University)|Jul 26, 2016
Advanced Image Processing Techniques参考文献 27被引用 52
一句话总结

本文提出一种用于单图像超分辨率的端到端深度卷积网络,该网络联合学习特征提取、潜在特征空间中的分辨率上采样以及多尺度重建。通过在特征空间中用可学习的转置卷积替代双三次插值,并通过多尺度卷积整合短程与长程上下文信息,该方法在峰值信噪比(PSNR)性能上达到最先进水平,相较于单尺度基线方法最高提升0.20 dB。

ABSTRACT

One impressive advantage of convolutional neural networks (CNNs) is their ability to automatically learn feature representation from raw pixels, eliminating the need for hand-designed procedures. However, recent methods for single image super-resolution (SR) fail to maintain this advantage. They utilize CNNs in two decoupled steps, i.e., first upsampling the low resolution (LR) image to the high resolution (HR) size with hand-designed techniques (e.g., bicubic interpolation), and then applying CNNs on the upsampled LR image to reconstruct HR results. In this paper, we seek an alternative and propose a new image SR method, which jointly learns the feature extraction, upsampling and HR reconstruction modules, yielding a completely end-to-end trainable deep CNN. As opposed to existing approaches, the proposed method conducts upsampling in the latent feature space with filters that are optimized for the task of image SR. In addition, the HR reconstruction is performed in a multi-scale manner to simultaneously incorporate both short- and long-range contextual information, ensuring more accurate restoration of HR images. To facilitate network training, a new training approach is designed, which jointly trains the proposed deep network with a relatively shallow network, leading to faster convergence and more superior performance. The proposed method is extensively evaluated on widely adopted data sets and improves the performance of state-of-the-art methods with a considerable margin. Moreover, in-depth ablation studies are conducted to verify the contribution of different network designs to image SR, providing additional insights for future research.

研究动机与目标

  • 解决现有基于深度学习的超分辨率方法存在的局限性,即使用人工设计的技术(如双三次插值)将上采样与特征学习解耦。
  • 在单一端到端可训练的网络中,实现特征提取、分辨率上采样与高分辨率重建的联合优化。
  • 通过多尺度卷积重建模块显式建模短程与长程上下文信息,以提升性能。
  • 通过联合训练深层网络与浅层辅助网络以捕捉主要图像成分,加速训练并改善收敛性。
  • 通过全面的消融实验,提供对不同网络组件贡献的实证洞察。

提出的方法

  • 该方法采用深度卷积网络,直接处理低分辨率(LR)图像,无需预上采样,实现端到端的特征表示学习。
  • 通过可学习的转置卷积层在潜在空间中上采样深层特征,替代传统的双三次插值,使上采样过程可针对任务进行优化。
  • 重建模块采用具有1×1、3×3、5×5和7×7感受野的多尺度卷积层,同时捕捉局部细节与全局上下文信息。
  • 提出一种联合训练策略:浅层网络学习主要图像结构,深层网络专注于残差细节,从而提升收敛速度与性能。
  • 整个网络通过联合损失函数进行端到端训练,以最小化高分辨率输出的重建误差。
  • 网络架构设计为完全可微分,可在单一优化过程中进行端到端训练,避免了先前方法中分步优化的缺陷。

实验结果

研究问题

  • RQ1能否通过在潜在特征空间中用可学习的上采样替代人工设计的双三次上采样,来提升超分辨率性能?
  • RQ2通过多尺度卷积整合短程与长程上下文信息,是否能改善超分辨率中的细节恢复?
  • RQ3与单独训练深层网络相比,联合训练深层与浅层网络是否能加速收敛并提升性能?
  • RQ4转置卷积层的卷积核大小如何影响上采样与重建的质量?
  • RQ5各架构组件(如多尺度结构、端到端学习、联合训练)对最终性能的相对贡献如何?

主要发现

  • 所提出的EEDS方法在Set5数据集上以3倍上采样因子达到33.47 dB的PSNR,优于次佳方法(EEDS-ND)0.25 dB。
  • 多尺度重建模块相较于最佳单尺度变体(EEDS-SS7)将PSNR提升0.20 dB,证实了结合短程与长程上下文信息的有效性。
  • 将转置卷积核大小从7增大至25可略微提升PSNR,15被选为性能与计算成本之间的折中方案。
  • 与仅训练深层网络相比,联合训练浅层网络可实现更快收敛与更优性能。
  • 消融实验表明,特征空间中的可学习上采样比使用双三次插值进行预上采样更有效,EEDS与EEDS-ND之间显著的性能差距验证了这一点。
  • 该方法在所有基准数据集(Set5、Set14、BSD100)上均达到最先进性能,展现出对现有方法的一致性优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。