QUICK REVIEW

[논문 리뷰] Compression Artifacts Removal Using Convolutional Neural Networks

Pavel Svoboda, Michal Hradiš|arXiv (Cornell University)|2016. 05. 02.

Advanced Image Processing Techniques참고 문헌 28인용 수 125

한 줄 요약

이 논문은 잔차 학습과 스킵 연결을 사용하여 JPEG 압축 아티팩트를 제거하는 대규모 심층 CNN을 학습시키고, 표준 데이터셋에서 PSNR, PSNR-B, SSIM 측면에서 AR-CNN, SA-DCT, spp에 비해 최첨단 성능을 달성한다.

ABSTRACT

This paper shows that it is possible to train large and deep convolutional neural networks (CNN) for JPEG compression artifacts reduction, and that such networks can provide significantly better reconstruction quality compared to previously used smaller networks as well as to any other state-of-the-art methods. We were able to train networks with 8 layers in a single step and in relatively short time by combining residual learning, skip architecture, and symmetric weight initialization. We provide further insights into convolution networks for JPEG artifact reduction by evaluating three different objectives, generalization with respect to training dataset size, and generalization with respect to JPEG quality level.

연구 동기 및 목표

작은 아키텍처를 넘어서 컨볼루션 네트워크를 이용한 JPEG 아티팩트 복원의 동기를 제시한다.
잔차 및 skip 연결을 갖는 심층 FCN 아키텍처를 개발하고 아티팩트 제거를 위해 평가한다.
초기화, 학습 목표 및 학습 전략이 수렴 및 성능에 미치는 영향을 조사한다.
JPEG 품질 수준과 학습 데이터 세트 크기에 따른 일반화를 평가한다.

제안 방법

Fully convolutional networks(L4 및 L8)를 각각 4개 및 8개의 층으로 사용한다.
직접 매핑이 아닌 이미지 잔차를 예측하여 잔차 학습을 채택한다.
초기층의 활성화를 더 깊은 층에 연결(concatenate)하여 스킵 아키텍처를 도입한다.
세 가지 목표를 실험한다: 직접 매핑, 잔차 학습 및 에지 보존 손실(Sob severity).
초기화 시 필터를 중앙에 배치하여 대칭 가중치 초기화를 달성하고 더 높은 학습률을 가능하게 한다.
BSDS500(400 이미지)에서 학습하고 PSNR, PSNR-B, SSIM을 사용하여 LIVE1 및 BSDS500 검증 세트에서 평가한다.
SOTA 방법들(AR-CNN, SA-DCT, spp)과 비교하고 JPEG 품질 및 데이터 세트 크기에 따른 일반화를 분석한다.

실험 결과

연구 질문

RQ1대규모의 심층 CNN이 JPEG 아티팩트 제거에서 이전의 최첨단 방법들을 능가할 수 있는가?
RQ2잔차 학습 대 직접 매핑 대 에지 보존 손실이 재구성 품질에 미치는 영향은 무엇인가?
RQ3네트워크가 서로 다른 JPEG 품질 수준과 학습 데이터 크기에서 얼마나 일반화되는가?
RQ4네트워크 아키텍처(L4 대 L8)와 초기화가 학습 속도 및 성능에 영향을 미치는가?
RQ5실용적 배치를 위한 계산 속도와 매개변수 수의 트레이드오프는 무엇인가?

주요 결과

L8 잔차 네트워크가 LIVE1 및 BSDS500에서 테스트된 모든 품질에서 PSNR, PSNR-B, SSIM 측면에서 다른 모든 방법을 능가한다. (표 3 및 표 4)
잔차 학습은 직접 매핑보다 수렴 속도가 빠르며 합리적인 반복 수(250k)로 더 깊은 네트워크(예: 8층)를 학습 가능하게 한다. (그림 6, 표 5)
L4(더 작은 네트워크)는 400이미지 BSD 데이터에서 일반화가 잘 되며, 경쟁 방법들보다 자주 우수하면서도 더 효율적이다.
에지 보존 손실은 L4에서 잔차 학습에 비해 명확한 향상을 보이지 않았다(표 5).
cuDNN을 갖춘 GTX 780에서의 학습 속도: L4는 1 MPx를 220 ms에 처리; L8은 1052 ms에 처리하며, L4의 FLOPs per 픽셀 약 140k 및 L8 약 440k per 픽셀이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.