Skip to main content
QUICK REVIEW

[논문 리뷰] Joint Autoregressive and Hierarchical Priors for Learned Image Compression

David Minnen, Johannes Ballé|arXiv (Cornell University)|2018. 09. 08.
Advanced Data Compression Techniques참고 문헌 26인용 수 353
한 줄 요약

본 논문은 결합된 자기회귀 컨텍스트 모델과 계층적 하이퍼프라이어를 이용해 학습된 이미지 압축을 확장하고, 최첨단 레이트–디스토션 성능을 달성하며 PSNR과 MS-SSIM에서 BPG를 능가한다.

ABSTRACT

Recent models for learned image compression are based on autoencoders, learning approximately invertible mappings from pixels to a quantized latent representation. These are combined with an entropy model, a prior on the latent representation that can be used with standard arithmetic coding algorithms to yield a compressed bitstream. Recently, hierarchical entropy models have been introduced as a way to exploit more structure in the latents than simple fully factorized priors, improving compression performance while maintaining end-to-end optimization. Inspired by the success of autoregressive priors in probabilistic generative models, we examine autoregressive, hierarchical, as well as combined priors as alternatives, weighing their costs and benefits in the context of image compression. While it is well known that autoregressive models come with a significant computational penalty, we find that in terms of compression performance, autoregressive and hierarchical priors are complementary and, together, exploit the probabilistic structure in the latents better than all previous learned models. The combined model yields state-of-the-art rate--distortion performance, providing a 15.8% average reduction in file size over the previous state-of-the-art method based on deep learning, which corresponds to a 59.8% size reduction over JPEG, more than 35% reduction compared to WebP and JPEG2000, and bitstreams 8.4% smaller than BPG, the current state-of-the-art image codec. To the best of our knowledge, our model is the first learning-based method to outperform BPG on both PSNR and MS-SSIM distortion metrics.

연구 동기 및 목표

  • GSM-based entropy 모델을 조건부 가우시안 혼합과 자기회귀 컨텍스트로 확장한다.
  • 자기회귀 사전과 계층적 하이퍼프리어의 엔트로피 모델링에 대한 상호 보완적 이점을 조사한다.
  • PSNR 및 MS-SSIM에서 표준 코덱과 기존 학습 방법에 대한 RD 성능을 평가한다.

제안 방법

  • 하이퍼프리어로 조건화된 평균과 척도를 모두 예측하여 Gaussian mixture model로 스케일 하이퍼프라이어 모델을 일반화한다.
  • 자기회귀 컨텍스트 모델과 하이퍼프라이어를 결합하여 각 잠재 벡터에 대한 평균과 철도를 출력하는 공동 엔트로피 모델을 형성한다.
  • 잠재 표현을 위한 기본 오토인코더와 엔트로피 코딩을 위한 확률 모델(context + hyperprior)을 갖는 두 부분의 신경망 구조를 사용한다.
  • 잠재 및 하이퍼-잠재에 대한 비용과 제곱 오차 왜곡을 포함하는 레이트–디스토션 목적함수로 학습한다.
  • 잠재에서 인과적 의존성을 포착하기 위해 5x5 마스킹 컨볼루션 기반 컨텍스트 모델을 적용하고 엔트로피 파라미터 네트워크는 가우시안 파라미터를 예측하도록 유지한다.
  • Kodak에서 RD 성능(PSNR 및 MS-SSIM)을 평가하고 표준 코덱(BPG, JPEG, JPEG2000, WebP) 및 이전 학습 방법과 비교한다.

실험 결과

연구 질문

  • RQ1자기회귀 잠재 사전이 하이퍼프리어와 결합될 때 압축 성능을 향상시킬 수 있는가?
  • RQ2가우시안 혼합 엔트로피 모델이 스케일 하이퍼프리어에 비해 레이트–디스토션 측면에서 어떤 차이를 보이는가?
  • RQ3자기회귀 컨텍스트를 계층적 프라이어와 통합함으로써 학습된 이미지 압축에서 어떤 이득이 생기는가?

주요 결과

  • 결합된 컨텍스트(자기회귀)와 하이퍼프리어 모델이 최첨단 레이트–디스토션 성능을 달성한다.
  • 결합 모델은 이전의 최첨단 학습 방법에 비해 평균 파일 크기를 15.8% 감소시킨다.
  • 이 개선은 JPEG 대비 약 59.8%의 크기 감소에 해당한다.
  • 이 방법은 WebP 및 JPEG2000에 대해 35% 이상 감소를 달성한다.
  • 비트스트림은 당시 최첨단 코덱인 BPG보다 8.4% 작다.
  • 저자들이 확인한 한, 이는 PSNR과 MS-SSIM 모두에서 BPG를 능가하는 최초의 학습 기반 방법이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.