Skip to main content
QUICK REVIEW

[论文解读] Revisiting RCAN: Improved Training for Image Super-Resolution

Zudi Lin, Prateek Garg|arXiv (Cornell University)|Jan 27, 2022
Advanced Image Processing Techniques被引用 47
一句话总结

本论文表明,通过将现代训练策略应用于 RCAN(RCAN-it),该模型可以在极少的架构变动下达到或超过许多后续基于 CNN 的超分辨率方法,揭示欠拟合是主要瓶颈。

ABSTRACT

Image super-resolution (SR) is a fast-moving field with novel architectures attracting the spotlight. However, most SR models were optimized with dated training strategies. In this work, we revisit the popular RCAN model and examine the effect of different training options in SR. Surprisingly (or perhaps as expected), we show that RCAN can outperform or match nearly all the CNN-based SR architectures published after RCAN on standard benchmarks with a proper training strategy and minimal architecture change. Besides, although RCAN is a very large SR architecture with more than four hundred convolutional layers, we draw a notable conclusion that underfitting is still the main problem restricting the model capability instead of overfitting. We observe supportive evidence that increasing training iterations clearly improves the model performance while applying regularization techniques generally degrades the predictions. We denote our simply revised RCAN as RCAN-it and recommend practitioners to use it as baselines for future research. Code is publicly available at https://github.com/zudi-lin/rcan-it.

研究动机与目标

  • 研究在 RCAN 中,训练策略是否比架构改动更能推动超分辨率的提升。
  • 识别在标准超分辨率训练设置下,RCAN 是否受到欠拟合或过拟合的影响。
  • 提供一个实用、可扩展的训练协议(RCAN-it),在尽量少改动架构的情况下提升 RCAN 的性能。

提出的方法

  • 调查视觉任务中的当代训练与正则化技术。
  • 将大批量训练应用于 RCAN,使用 Lamb 优化器和余弦退火。
  • 在 RCAN 中将 ReLU 替换为 SiLU 激活,并评估影响。
  • 利用更长的训练、增大补丁尺寸进行微调、FP16 分析以及有选择的正则化来研究它们的影响。
  • 使用 warm-start 在超分辨率尺度之间(从 x2 转移到 x3/x4)迁移权重。
  • 提供消融研究与 oracle 分析以衡量上界以及数据/领域的影响。

实验结果

研究问题

  • RQ1是否主要通过训练而非架构改动即可实现 RCAN 的性能提升?
  • RQ2在标准 SR 训练方案中,RCAN 是否更多地受欠拟合而非过拟合的限制?
  • RQ3哪些训练策略的组合在常见基准测试中能为 RCAN 带来最佳的 SR 性能?

主要发现

  • RCAN-it 在 Manga109 的 x2 SR 上达到 39.88 dB PSNR,比 RCAN 提升 0.44 dB,并与最近的 CNN/SR 方法竞争,甚至更好。
  • 通过自集成,RCAN-it 可达到 40.04 dB PSNR,优于所有现有方法,无论是否自集成。
  • 采用 256 批量大小的更大批量训练,以及 Lambda 优化器和余弦调度,在保持相近性能的同时将训练时间减少约 77%。
  • 更长的训练和更大补丁微调在 Set5、Set14、B100、Urban100 和 Manga109 上持续提升 PSNR,表明 RCAN 存在欠拟合而非过拟合。
  • 在识别任务中有效的正则化技术(如强数据增强、Mixup、随机深度)通常会降低 RCAN 的 SR 性能,凸显领域特定的训练需求。
  • 在 x2 到 x3/x4 的超分辨率尺度之间使用尾部模块微调的暖启动显著降低训练成本,同时保持出色性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。