QUICK REVIEW

[논문 리뷰] Variational image compression with a scale hyperprior

Johannes Ballé, David Minnen|arXiv (Cornell University)|2018. 02. 01.

Image and Signal Denoising Methods참고 문헌 15인용 수 1,085

한 줄 요약

끝에서 끝까지의 엔드-투-엔드 변분 오토인코더를 이용한 이미지 압축으로, 스케일 하이프라이어를 도입해 잠재 의존성을 모델링하고 ANN 기반 방법들 중에서 최첨단 MS-SSIM과 강력한 PSNR 성능을 달성합니다.

ABSTRACT

We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.

연구 동기 및 목표

잠재 코드의 공간 의존성을 포착하기 위해 하이프라이어를 사용하는 엔드-투-엔드 변분 이미지 압축 모델을 개발합니다.
특히 상향식으로 자유화된 정보의 비용을 최소화하기 위해 하이프라이어를 오토인코더와 함께 학습합니다.
기존 ANN 기반 방법 및 일반 코덱과 비교하여 PSNR과 MS-SSIM에서 성능을 평가합니다.
다양한 왜곡 지표로 학습할 때 재구성 품질과 아티팩트에 미치는 영향을 분석합니다.

제안 방법

분석 변환 ga(x; φg)로 잠재 y를 생성하고 합성 변환 gs(ˆy; θg)로 x를 재구성합니다.
잠재 스케일을 z로 모델링하고 hs를 통해 ˜σ를 예측하여 p˜y|˜z를 계층적으로 조건부화하는 스케일 하이프라이어를 도입합니다.
q(˜y, ˜z | x)를 균일 확률변수의 곱으로 모델링하여 추론과 역전파를 쉽게 할 수 있게 합니다.
양자화를 대체하는 가산적 균일 잡음을 사용한 미분가능한 대리 손실로 학습하고, rate와 distortion 항을 포함하는 KL-발산 기반 목적함수를 최적화합니다.
사전 p˜y|ψ와 p˜z|ψ에 대해 비모수적이고 전적으로 독립인 밀도 모델을 사용하여 엔드-투-엔드 학습이 가능하도록 합니다.
ˆz(사이드 정보)를 산술 부호화로 인코딩하고 디코더에서 이를 사용해 ˆσ를 얻고 ˆy를 정확히 디코딩합니다.

실험 결과

연구 질문

RQ1잠재 스케일에 대한 하이프라이어가 분리된 우선분포에 비해 rate–distortion 성능을 개선합니까?
RQ2공간적으로 변하는 스케일에 따라 잠재 우선분포를 조건화하는 것이 압축 효율에 어떤 영향을 미칩니까?
RQ3다양한 왜곡 지표(PSNR 대 MS-SSIM)를 최적화하는 것이 시각적 품질과 아티팩트에 어떤 차이를 만들까요?
RQ4하이프라이어의 이점을 얻기 위해 필요한 사이드 정보(ˆz)의 양은 어느 정도입니까?

주요 결과

하이프라이어 모델은 Kodak에서 최첨단 MS-SSIM을 달성하여 그 지표에 대해 기존 코덱 및 이전의 ANN 방법들을 능가합니다.
제곱 오차를 최적화했을 때, 분해된 우선분포 모델은 강력한 PSNR 성능을 보여주고 일부 기존 코덱 및 ANN 방법에 근접하거나 이를 능가하며, 하이프라이어가 추가 이점을 제공합니다.
하이프라이어에 대한 사이드 정보는 전체 비트레이트의 작은 비율로 남아 있지만(고속도에서도 0.1 bpp 미만), 주목할 만한 rate–distortion 개선을 제공합니다.
MS-SSIM 손실로 같은 모델을 훈련하면 제곱 오차로 훈련했을 때와 다른 아티팩트 패턴이 나타나며, 왜곡 지표 간의 질적 차이를 강조합니다.
하이프라이어는 분리된 우선분포 모델에 비해 일관되게 rate–distortion 트레이드오프를 개선하여, 주변 분포와의 적합성 중요성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.