Skip to main content
QUICK REVIEW

[论文解读] Fast Image Processing with Fully-Convolutional Networks

Qifeng Chen, Jia Xu|arXiv (Cornell University)|Sep 2, 2017
Image Enhancement Techniques参考文献 13被引用 39
一句话总结

本文提出一种全卷积神经网络(FCN),通过在输入-输出图像对上进行训练,学习近似多种图像处理算子(如L0平滑、风格迁移和去雾)的行为。训练后的模型可在常数时间内以全分辨率运行,在MIT-Adobe数据集上实现36 dB的PSNR,较之前方法提升8.5 dB,且在速度和跨数据集、跨分辨率的泛化能力方面表现优异。

ABSTRACT

We present an approach to accelerating a wide variety of image processing operators. Our approach uses a fully-convolutional network that is trained on input-output pairs that demonstrate the operator's action. After training, the original operator need not be run at all. The trained network operates at full resolution and runs in constant time. We investigate the effect of network architecture on approximation accuracy, runtime, and memory footprint, and identify a specific architecture that balances these considerations. We evaluate the presented approach on ten advanced image processing operators, including multiple variational models, multiscale tone and detail manipulation, photographic style transfer, nonlocal dehazing, and nonphotorealistic stylization. All operators are approximated by the same model. Experiments demonstrate that the presented approach is significantly more accurate than prior approximation schemes. It increases approximation accuracy as measured by PSNR across the evaluated operators by 8.5 dB on the MIT-Adobe dataset (from 27.5 to 36 dB) and reduces DSSIM by a multiplicative factor of 3 compared to the most accurate prior approximation scheme, while being the fastest. We show that our models generalize across datasets and across resolutions, and investigate a number of extensions of the presented approach. The results are shown in the supplementary video at https://youtu.be/eQyfHgLx8Dc

研究动机与目标

  • 加速计算成本高或在高分辨率下运行缓慢的多样化、复杂图像处理算子。
  • 克服基于下采样的近似方法的局限性,后者会损失高频细节并需要重新运行原始算子。
  • 开发一种单一、统一的FCN架构,无需超参数调优即可泛化至多个算子。
  • 在图像处理近似中同时实现高精度、低延迟和紧凑的内存占用。

提出的方法

  • 在展示目标图像处理算子行为的配对输入-输出图像上训练全卷积网络。
  • 采用端到端训练,学习从输入图像到输出图像的端到端映射,避免在推理时运行原始算子。
  • 采用特定的FCN架构,通过控制深度和宽度,在精度、速度和内存占用之间取得平衡。
  • 在不重新训练或调整超参数的情况下,将同一训练模型应用于多个算子。
  • 在数据集(MIT-Adobe、RAISE)和图像分辨率(最高达2160p)上验证泛化能力,包括训练期间未见过的分辨率。
  • 将框架扩展以支持参数化算子、视频处理以及多算子融合。

实验结果

研究问题

  • RQ1是否可以使用单一共享的FCN架构,在无需针对特定算子调优的情况下,准确近似多种先进的图像处理算子?
  • RQ2网络的深度和宽度如何影响近似精度、运行时间和内存使用?
  • RQ3所提方法是否能在不同数据集和图像分辨率(包括训练期间未见的分辨率)上实现泛化?
  • RQ4训练后的模型是否可用于在推理时创建交互式、参数化的图像处理效果?
  • RQ5该框架是否可扩展以处理视频,并在单个网络中组合多个图像处理效果?

主要发现

  • 所提方法在MIT-Adobe 5K测试集上对十种算子的PSNR达到36 dB,较之前近似方案提升8.5 dB。
  • 与最准确的先前基线相比,DSSIM降低约3倍,同时显著更快。
  • 模型在数据集间具有良好的泛化能力:跨数据集SSIM差异小于1%,表明出色的领域泛化能力。
  • 模型在各种分辨率下保持高精度,包括2160p和训练期间未见的分辨率,PSNR始终优于基线。
  • 使用固定超参数的同一模型架构无需重新训练即可近似全部十种算子,展现出强大的泛化能力。
  • 该方法运行时间恒定(1080p下为190 ms),与原始算子的运行时间无关,且快于之前方法中最快的变体。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。