QUICK REVIEW

[논문 리뷰] Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring

Seungjun Nah|arXiv (Cornell University)|2016. 12. 07.

Advanced Image Processing Techniques참고 문헌 29인용 수 33

한 줄 요약

이 논문은 명시적인 블러 커널 추정을 회피하고 뿌연 이미지에서 선명한 이미지로의 엔드 투 엔드 매핑을 학습함으로써 동적 장면의 블러를 제거하기 위한 딥 다중스케일 컨볼루션 신경망을 제안한다. 실제 블러와 정답 데이터를 포함한 고속 카메라 기반 신규 데이터셋으로 훈련된 모델은 PSNR, SSIM 및 런타임 측면에서 기존 방법을 능가하는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Non-uniform blind deblurring for general dynamic scenes is a challenging computer vision problem as blurs arise not only from multiple object motions but also from camera shake, scene depth variation. To remove these complicated motion blurs, conventional energy optimization based methods rely on simple assumptions such that blur kernel is partially uniform or locally linear. Moreover, recent machine learning based methods also depend on synthetic blur datasets generated under these assumptions. This makes conventional deblurring methods fail to remove blurs where blur kernel is difficult to approximate or parameterize (e.g. object motion boundaries). In this work, we propose a multi-scale convolutional neural network that restores sharp images in an end-to-end manner where blur is caused by various sources. Together, we present multi-scale loss function that mimics conventional coarse-to-fine approaches. Furthermore, we propose a new large-scale dataset that provides pairs of realistic blurry image and the corresponding ground truth sharp image that are obtained by a high-speed camera. With the proposed model trained on this dataset, we demonstrate empirically that our method achieves the state-of-the-art performance in dynamic scene deblurring not only qualitatively, but also quantitatively.

연구 동기 및 목표

복잡한 동적 장면에서 비균일한 운동과 깊이 변화가 존재할 경우 단순화된 블러 커널 가정에 의존하는 전통적 블러 제거 방법의 한계를 해결하기 위해.
현실적이지 않은 커널 모델을 가진 합성 블러 데이터셋에 의존하는 기존의 CNN 기반 방법의 단점을 극복하기 위해.
명시적인 커널 추정 없이 복잡하고 공간적으로 변화하는 블러 커널을 암묵적으로 모델링하는 엔드 투 엔드 딥 러닝 프레임워크를 개발하기 위해.
효과적인 지도 학습을 가능하게 하기 위해 고속 카메라를 사용해 촬영한 대규모이고 현실적인 뿌연 이미지와 정답 선명 이미지 쌍의 데이터셋을 구축하기 위해.

제안 방법

거시적에서 미세적 측면으로의 최적화를 모방하는 다중스케일 U-Net 유사 CNN 아키텍처를 제안하며, 스케일 간 스킵 연결을 통해 고주파 수치를 유지한다.
다양한 해상도 수준에서의 콘텐츠 손실을 조합하는 다중스케일 손실 함수를 도입하여 수렴성과 특징 학습을 향상시킨다.
패치GAN 판별자를 사용한 적대적 손실 구성 요소를 도입하여 인지적 품질을 향상시키고 잡음 요소를 줄인다.
새로운 데이터셋 수집 방법을 적용: 동적 장면의 고속 시퀀스를 촬영하고 프레임을 평균화하여 현실적인 블러를 시뮬레이션하며, 감마 보정을 적용한다.
Adam 옵timizer를 사용해 생성자와 판별자를 함께 훈련하며 학습률 감소를 적용하며, 병합된 손실 $\mathcal{L}_{total} = \mathcal{L}_{cont} + \lambda \times \mathcal{L}_{adv}$ 를 최소화한다. 여기서 $\lambda = 10^{-4}$.
일반화 성능 향상을 위해 데이터 증강을 적용하며, 특히 운동 경계와 가림 영역과 같은 복잡한 블러 패턴에 대해 유의미하다.

실험 결과

연구 질문

RQ1복잡한 동적 장면에서 블러 커널을 명시적으로 추정하지 않고도 딥 러닝 모델이 뛰어난 블러 제거 성능을 달성할 수 있는가?
RQ2다중스케일 손실 함수는 엔드 투 엔드 블러 제거 네트워크에서 수렴성과 이미지 품질을 어떻게 향상시키는가?
RQ3고속 카메라로 촬영한 실제 세계 블러 데이터셋은 합성 데이터셋에 비해 일반화 능력과 성능을 얼마나 향상시키는가?
RQ4다중스케일 콘텐츠 손실과 적대적 손실을 조합하면 표준 손실에 비해 더 나은 인지적 품질과 더 적은 잡음 요소를 제공하는가?
RQ5실제 세계 및 합성 벤치마크에서 최신 기술 수준의 방법들과 비교해 본다면, 제안된 방법은 속도와 정확도 측면에서 어떻게 비교되는가?

주요 결과

GOPRO 데이터셋에서 제안된 방법은 스케일 수준 K=2에서 PSNR 29.23과 SSIM 0.9162를 달성하여, Sun 등 [26] (PSNR: 24.64, SSIM: 0.8429) 및 Kim과 Lee [15] (PSNR: 23.64, SSIM: 0.8239) 와 같은 기존 방법을 크게 능가한다.
K=3일 때 이미지당 3.09초의 속도로 실행되어 Sun 등 [26]의 기준 방법(20분 소요)보다 20배 이상 빠르다.
Köhler 데이터셋에서 제안된 방법은 K=3일 때 PSNR 26.48과 MSSIM 0.8116을 달성하여 두 지표에서 이전 최신 기술 수준을 초월한다.
정성적 결과에서는 운동 경계와 가림 영역에서 날카운 가장자리와 세부 정보를 효과적으로 복원하며, 커널 추정 기반 방법에서 흔히 발생하는 리버버버레이션 잡음 요소를 방지한다.
실제 커널이 없는 현실적인 데이터셋으로 훈련되었기 때문에, 비선형적이고 복잡한 운동 패턴과 같은 새로운 블러 패턴에 대해서도 일반화 성능이 뛰어나다.
제거 분석 결과 다중스케일 손실과 적대적 손실의 조합이 인지적 품질 향상과 수렴성 향상에 크게 기여한다는 것이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.