[论文解读] Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
介绍 ESPCN,一种在低分辨率(LR)空间执行超分辨率的卷积神经网络,配有子像素卷积层,使在单个 K2 GPU 上实现实时的 1080p 视频超分辨成为可能,并在 PSNR 上优于现有的先前 CNN 方法,且运行速度更快。
Recently, several models based on deep neural networks have achieved great success in terms of both reconstruction accuracy and computational performance for single image super-resolution. In these methods, the low resolution (LR) input image is upscaled to the high resolution (HR) space using a single filter, commonly bicubic interpolation, before reconstruction. This means that the super-resolution (SR) operation is performed in HR space. We demonstrate that this is sub-optimal and adds computational complexity. In this paper, we present the first convolutional neural network (CNN) capable of real-time SR of 1080p videos on a single K2 GPU. To achieve this, we propose a novel CNN architecture where the feature maps are extracted in the LR space. In addition, we introduce an efficient sub-pixel convolution layer which learns an array of upscaling filters to upscale the final LR feature maps into the HR output. By doing so, we effectively replace the handcrafted bicubic filter in the SR pipeline with more complex upscaling filters specifically trained for each feature map, whilst also reducing the computational complexity of the overall SR operation. We evaluate the proposed approach using images and videos from publicly available datasets and show that it performs significantly better (+0.15dB on Images and +0.39dB on Videos) and is an order of magnitude faster than previous CNN-based methods.
研究动机与目标
- 在网络早期将图像放大到高分辨率(HR)前,降低计算成本的前提下,推动实时单幅图像与视频超分辨率。
- 提出并验证一种高效的子像素卷积层,用以从 LR 特征图重建 HR。
- 演示在网络末端进行 LR 空间特征提取和 LR-to-HR 上采样以降低复杂度。
- 在标准数据集上对比现有单图像超分辨(SISR)方法,展示 PSNR 与速度的提升。
提出的方法
- 提出一个对 LR 图像进行 L-1 层处理以提取特征的 CNN,然后使用子像素卷积(周期性重排)层来生成 HR 输出。
- 介绍一个子像素卷积层,将大小为 H×W×C·r² 的特征图通过 PS 运算符重塑为 rH×rW×C。
- 以 HR-LR 对通过高斯模糊和步幅为 r 的下采样生成的对训练,使用均方误差(MSE)。
- 证明最后一层上采样使用每个特征图 nL−1 个学习滤波器比在 HR 空间进行预上采样更高效。
- 比较 tanh 与 relu 激活在此超分场景中的表现,并展示 tanh 的性能优于 relu。
实验结果
研究问题
- RQ1LR 空间特征提取结合学习型上采样(子像素)层是否能够在不牺牲超分质量的前提下实现更高的效率?
- RQ2是否对每个特征图学习上采样滤波器比输入端固定的双三次等上采样更具优势?
- RQ3在标准图像和视频数据集上,ESPCN 相较现有基于 CNN 的超分辨方法实现了哪些 PSNR 与速度提升?
- RQ4使用所提出的架构,在单个 GPU 上实现实时高清视频超分辨是否可行?
主要发现
- ESPCN 在标准图像基准测试的 PSNR 上优于先前的基于 CNN 的超分辨方法(论文中给出平均提升),在高清视频数据集的帧 PSNR 也表现更好。
- 该方法实现显著更快的运行时间,例如在 K2 GPU 上 Set14 的每张图像 4.7 ms,1080p 视频在尺度 3 时每帧 0.038 s(尺度 4 时 0.029 s)。
- 与先前的 CNN 方法相比,该方法在图像上提升 +0.15 dB PSNR,在视频上提升 +0.39 dB PSNR。
- 最后一层的子像素卷积使单个 GPU 上的高清视频超分辨成为实时,整体复杂度比 SRCNN 式流水线降低约 2.5×r²。
- 使用 ImageNet 数据进行训练并在最终激活中使用 tanh 相较于 relu 进一步提升了超分性能。
- 该方法被证明比以往的 CNN 基于超分辨方法快近一个数量级,同时在多个数据集上实现了最先进或具有竞争力的 PSNR。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。