QUICK REVIEW

[논문 리뷰] SRPGAN: Perceptual Generative Adversarial Network for Single Image Super Resolution

Bingzhe Wu, Haodong Duan|arXiv (Cornell University)|2017. 12. 16.

Advanced Image Processing Techniques참고 문헌 26인용 수 42

한 줄 요약

이 논문은 단일 이미지 초해상도 복원을 위한 인지적 생성 적대적 네트워크인 SRPGAN을 제안한다. 기존의 전통적인 픽셀 단위 손실 함수를 대체하여 판별기의 특징에서 유도된 새로운 강건한 인지적 손실을 도입한다. 콘텐츠 유지 보존을 위한 샤크본리에 손실 함수와 적대적 훈련을 결합함으로써, SRPGAN은 구조적 유사도(SSIM) 측면에서 최신 기술 수준(SOTA)의 성능을 달성하며, 특히 큰 확대 비율(4배 및 8배)에서 더 선명하고 현실적인 고해상도 이미지, 더 풍부한 디테일을 생성한다.

ABSTRACT

Single image super resolution (SISR) is to reconstruct a high resolution image from a single low resolution image. The SISR task has been a very attractive research topic over the last two decades. In recent years, convolutional neural network (CNN) based models have achieved great performance on SISR task. Despite the breakthroughs achieved by using CNN models, there are still some problems remaining unsolved, such as how to recover high frequency details of high resolution images. Previous CNN based models always use a pixel wise loss, such as l2 loss. Although the high resolution images constructed by these models have high peak signal-to-noise ratio (PSNR), they often tend to be blurry and lack high-frequency details, especially at a large scaling factor. In this paper, we build a super resolution perceptual generative adversarial network (SRPGAN) framework for SISR tasks. In the framework, we propose a robust perceptual loss based on the discriminator of the built SRPGAN model. We use the Charbonnier loss function to build the content loss and combine it with the proposed perceptual loss and the adversarial loss. Compared with other state-of-the-art methods, our method has demonstrated great ability to construct images with sharp edges and rich details. We also evaluate our method on different benchmarks and compare it with previous CNN based methods. The results show that our method can achieve much higher structural similarity index (SSIM) scores on most of the benchmarks than the previous state-of-art methods.

연구 동기 및 목표

픽셀 단위 손실 함수(예: L2)의 한계를 해결하기 위해, 초해상도 이미지를 흐리고 과도하게 매끄럽게 만드는 문제를 해결한다.
PSNR 최적화 방법을 초월하여 단일 이미지 초해상도 복원(SISR)에서 인지적 품질 향상과 고주파 수준의 디테일 복원을 향상시키기 위해 노력한다.
SRGAN에서처럼 외부 VGG 네트워크가 필요로 하지 않는, 판별기 네트워크의 특징을 활용하여 더 강건하고 효율적인 인지적 손실을 개발한다.
정량적 지표(SSIM)와 시각적 품질 측면에서 모두 4배 및 8배와 같은 큰 확대 비율에서 뛰어난 성능을 달성하기 위해 노력한다.

제안 방법

판별기 네트워크의 중간 특징에서 직접 유도된 새로운 인지적 손실 함수를 제안하여 강건성과 인지적 현실감을 향상시킨다.
외부 이상치에 민감도가 낮고 훈련 안정성이 향상되는 샤크본리 손실 함수를 콘텐츠 손실로 사용하여 L2나 L1 손실과 비교해 개선한다.
샤크본리 콘텐츠 손실, 제안된 판별기 기반 인지적 손실, 그리고 적대적 손실을 통합하여 생성자와 판별자에 대한 통합 목적 함수로 조합한다.
배치 정규화를 생성자에서 인스턴스 정규화로 대체하여 특징 표현력과 훈련 안정성을 향상시킨다.
이미지-이미지 번역 모델을 영감으로 삼은 GAN 기반 프레임워크를 사용하며, 생성자는 고해상도 이미지를 생성하고, 판별자는 진짜 이미지와 생성된 이미지를 구분한다.
인지적 품질, 콘텐츠 충실도, 적대적 현실감을 균형 있게 유지하는 복합 손실 함수를 사용해 모델을 종단 간(end-to-end)으로 훈련시킨다.

실험 결과

연구 질문

RQ1판별기의 내부 특징에서 파생된 인지적 손실이 SISR에서 외부 VGG 기반 인지적 손실보다 우월한가?
RQ2L2 손실을 샤크본리 손실로 대체하면 초해상도 결과의 품질과 안정성이 향상되는가?
RQ3판별기 기반 인지적 손실을 갖춘 GAN 기반 프레임워크가 픽셀 단위 손실 기반 SISR 방법보다 더 높은 SSIM 점수와 더 나은 시각적 품질을 달성할 수 있는가?
RQ4제안된 방법은 최신 기술 수준의 접근법과 비교해 큰 확대 비율(예: 4배, 8배)에서 어떻게 성능을 내는가?
RQ5인지적 손실을 제거하거나 L2 손실로 대체했을 경우 최종 이미지 품질과 SSIM 점수에 어떤 영향을 미치는가?

주요 결과

SRPGAN은 대부분의 벤치마크에서 최고의 SSIM 점수를 기록했으며, Set14에서는 0.786, BSDS100에서는 0.749를 기록하여 이전의 최신 기술 수준 방법을 능가했다.
제안된 인지적 손실을 사용해 훈련한 모델는 같은 모델이 인지적 손실 없이 훈련된 경우(0.754)보다 훨씬 높은 SSIM(0.786, Set14 기준)를 기록하여, 이 손실의 핵심적 역할을 입증했다.
시각적 비교 결과, SRPGAN은 L2 손실 기반 모델이 흐릿한 출력을 생성하는 것에 비해 얼굴 수염과 질감 같은 미세한 디테일을 더 정확하게 재구성한다.
샤크본리 손실을 사용한 모델는 L2나 L1 콘텐츠 손실보다 더 빠르게 수렴하고 더 뛰어난 성능을 달성하며, 유사한 결과를 얻기 위해 더 적은 훈련 에포크를 필요로 한다.
외부 VGG 네트워크가 필요로 하지 않는 점을 감안할 때, SRPGAN은 SRGAN보다 인지적 품질에서 뛰어나며, 원숭이 수염과 같은 미세한 디테일을 더 잘 복원한다.
다만 모델는 고확대 비율에서 체스보드 아티팩트를 보이며, 이는 전치 컨볼루션 기반 GAN의 알려진 한계로 향후 연구의 대상으로 지목된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.