Skip to main content
QUICK REVIEW

[论文解读] Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Ke Yu, Chao Dong|arXiv (Cornell University)|Apr 10, 2018
Advanced Image Processing Techniques参考文献 41被引用 31
一句话总结

本文提出 RL-Restore,一种强化学习框架,可从一组轻量级、任务特定的卷积神经网络工具箱中动态选择,以恢复具有复杂混合失真的图像。通过将恢复过程建模为基于逐帧 PSNR 奖励的序列决策过程,并联合训练智能体与工具,该方法在仅使用大 CNN 82.2% 计算量的情况下实现了相当的性能,同时提升了对未见伪影的鲁棒性。

ABSTRACT

We investigate a novel approach for image restoration by reinforcement learning. Unlike existing studies that mostly train a single large network for a specialized task, we prepare a toolbox consisting of small-scale convolutional networks of different complexities and specialized in different tasks. Our method, RL-Restore, then learns a policy to select appropriate tools from the toolbox to progressively restore the quality of a corrupted image. We formulate a step-wise reward function proportional to how well the image is restored at each step to learn the action policy. We also devise a joint learning scheme to train the agent and tools for better performance in handling uncertainty. In comparison to conventional human-designed networks, RL-Restore is capable of restoring images corrupted with complex and unknown distortions in a more parameter-efficient manner using the dynamically formed toolchain.

研究动机与目标

  • 解决单个大型 CNN 在处理复杂混合图像失真时存在的参数量和计算成本过高的局限性。
  • 通过动态组合一系列轻量级、任务特定的网络,实现自适应且参数高效的恢复。
  • 通过智能体与工具的联合训练,提升对未知或未见失真在恢复过程中的鲁棒性。
  • 通过可见的工具链选择过程,揭示逐步恢复流程,提升可解释性。

提出的方法

  • 该框架使用一组小型专用 CNN 工具,分别针对去模糊、去噪和 JPEG 伪影减少任务进行训练。
  • 智能体学习一种策略,根据当前图像状态和先前动作,逐步选择工具,使用与 PSNR 提升成比例的逐帧奖励函数。
  • 采用联合学习方案,同时训练智能体与工具,以更好地应对中间恢复状态中的不确定性和伪影。
  • 当图像质量被认为足够好时,智能体可自主停止过程,防止过拟合并节省计算量。
  • 奖励函数通过 PSNR、SSIM、最终 PSNR 和最终 MSE 进行评估;逐帧 PSNR 表现最佳。
  • 工具的训练数据包含合成噪声和压缩数据,以增强对中间伪影的鲁棒性。

实验结果

研究问题

  • RQ1强化学习智能体能否有效组合轻量级网络的动态工具链,以恢复具有复杂混合失真的图像?
  • RQ2智能体与工具的联合训练如何提升对未知或中间伪影的鲁棒性?
  • RQ3不同奖励函数对恢复性能和收敛性有何影响?
  • RQ4自动停止机制如何影响恢复质量与计算效率?
  • RQ5该框架在泛化到未见失真方面是否优于单个大型 CNN?

主要发现

  • RL-Restore 在仅使用大 CNN 82.2% 的 FLOPs 情况下,实现了与之相当的 PSNR 性能,证明了显著的计算效率。
  • 联合训练策略使 PSNR 相比基线工具提升 0.2 dB,若在训练数据中加入噪声增强,还可额外提升 0.2 dB。
  • 逐帧 PSNR 奖励函数在 PSNR 和 SSIM 指标上均优于逐帧 SSIM、最终 PSNR 和最终 MSE。
  • 若移除自动停止机制,PSNR 平均降低 0.15 dB,且在轻微失真情况下下降更明显,表明存在过恢复风险。
  • 长度为 12 的工具链搭配 3 种工具可实现最优性能,更长的链因训练复杂度增加而未显著提升结果。
  • 该框架揭示了可解释的、逐步的恢复过程,相较于黑箱 CNN 提供了更高的透明度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。