QUICK REVIEW

[논문 리뷰] Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

Wenzhe Shi, José Caballero|arXiv (Cornell University)|2016. 09. 16.

Advanced Image Processing Techniques참고 문헌 43인용 수 210

한 줄 요약

ESPCN을 소개합니다. LR 공간에서 SR을 수행하고 서브픽셀 컨볼루션 계층을 갖춘 CNN으로, 단일 K2 GPU에서 실시간 1080p 비디오 SR을 가능하게 하며 PSNR에서 이전 CNN 방법들보다 더 높은 성능과 훨씬 빠른 런타임을 보입니다.

ABSTRACT

Recently, several models based on deep neural networks have achieved great success in terms of both reconstruction accuracy and computational performance for single image super-resolution. In these methods, the low resolution (LR) input image is upscaled to the high resolution (HR) space using a single filter, commonly bicubic interpolation, before reconstruction. This means that the super-resolution (SR) operation is performed in HR space. We demonstrate that this is sub-optimal and adds computational complexity. In this paper, we present the first convolutional neural network (CNN) capable of real-time SR of 1080p videos on a single K2 GPU. To achieve this, we propose a novel CNN architecture where the feature maps are extracted in the LR space. In addition, we introduce an efficient sub-pixel convolution layer which learns an array of upscaling filters to upscale the final LR feature maps into the HR output. By doing so, we effectively replace the handcrafted bicubic filter in the SR pipeline with more complex upscaling filters specifically trained for each feature map, whilst also reducing the computational complexity of the overall SR operation. We evaluate the proposed approach using images and videos from publicly available datasets and show that it performs significantly better (+0.15dB on Images and +0.39dB on Videos) and is an order of magnitude faster than previous CNN-based methods.

연구 동기 및 목표

실험 네트워크의 초점은 네트워크의 초기에 HR로 업스케일링하는 대신 계산 비용을 줄이면서 단일 이미지와 비디오의 실시간 초해상화를 달성하는 것.
LR 특징 맵에서 HR을 재구성하기 위한 효율적인 서브픽셀 컨볼루션 계층을 제안하고 검증한다.
네트워크 말단에서 LR-스페이스 특징 추출과 LR→HR 업스케일링을 통해 복잡도를 줄인다.
표준 데이터셋에서 기존 SISR 방법과 비교하여 PSNR과 속도 향상을 보여준다.

제안 방법

LR 이미지를 L-1 계층으로 처리하여 특징을 추출한 뒤, 서브픽셀 컨볼루션(주기적 셔플링) 계층을 사용하여 HR 출력을 생성하는 CNN을 제안한다.
H×W×C·r² 크기의 특징 맵을 rH×rW×C로 재구성하는 PS 연산자를 사용하는 서브픽셀 컨볼루션 계층을 도입한다.
가우시안 블러와 스트라이드 r로 다운샘플링된 HR-LR 쌍을 대상으로 평균제곱오차로 학습한다.
마지막 계층의 업스케일링에서 특징 맵마다 nL−1 개의 학습된 필터를 사용하는 것이 HR 공간에서 미리 업스케일링하는 것보다 더 효율적임을 보여준다.
tanh 활성화와 relu 활성화의 비교를 통해 이 SR 설정에서 tanh의 우수한 성능을 입증한다.

실험 결과

연구 질문

RQ1LR-스페이스 특징 추출과 학습된 업스케일링(sub-pixel) 계층의 결합이 SR 품질을 희생하지 않으면서 더 높은 효율성을 달성할 수 있는가?
RQ2입력에서의 고정된 바이큐빅(bicubic)과 같은 업스케일링보다 특징 맵마다 학습된 업스케일링 필드를 학습하는 것이 더 우수한가?
RQ3ESPCN이 표준 이미지 및 비디오 데이터셋에서 기존 CNN 기반 SR 방법에 비해 얻는 PSNR 및 속도 향상은 어느 정도인가?
RQ4제안된 아키텍처를 사용하면 단일 GPU에서 실시간 HD 비디오 SR이 가능한가?

주요 결과

ESPCN은 표준 이미지 벤치마크에서 이전 CNN 기반 SR 방법보다 PSNR이 우수하고 HD 데이터셋에서의 비디오 PSNR에서도 우수한 성능을 보인다.
메타: 4.7 ms per image for Set14 on a K2 GPU and 0.038 s per frame for 1080p video at scale 3 (0.029 s at scale 4) 등으로 매우 빠른 런타임을 달성한다.
이 접근 방식은 이미지에서 +0.15 dB PSNR, 비디오에서 +0.39 dB PSNR 향상을 제공한다.
마지막 계층의 서브픽셀 컨볼루션으로 단일 GPU에서 HD 비디오 SR이 실시간으로 가능하며 SRCNN과 유사한 파이프라인에 비해 전반적인 복잡도는 약 2.5×r² 감소한다.
이미지넷 데이터로 학습하고 최종 활성화로 tanh를 사용할 때 relu보다 SR 성능이 더 향상된다.
이 방법은 다수의 데이터셋에서 이전 CNN 기반 SR 방법보다 거의 1상수의 속도 차이를 보이며 최첨단이거나 경쟁력 있는 PSNR을 달성하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.