[논문 리뷰] Joint Autoregressive and Hierarchical Priors for Learned Image Compression
이 논문은 학습된 이미지 압축을 공동 자동회귀 컨텍스트 모델과 하이퍼프라이어로 확장하여 PSNR과 MS-SSIM에서 BPG 및 다른 코덱보다 우수한 상태-오브-더-아트(rate–distortion) 성능을 달성한다.
Recent models for learned image compression are based on autoencoders, learning approximately invertible mappings from pixels to a quantized latent representation. These are combined with an entropy model, a prior on the latent representation that can be used with standard arithmetic coding algorithms to yield a compressed bitstream. Recently, hierarchical entropy models have been introduced as a way to exploit more structure in the latents than simple fully factorized priors, improving compression performance while maintaining end-to-end optimization. Inspired by the success of autoregressive priors in probabilistic generative models, we examine autoregressive, hierarchical, as well as combined priors as alternatives, weighing their costs and benefits in the context of image compression. While it is well known that autoregressive models come with a significant computational penalty, we find that in terms of compression performance, autoregressive and hierarchical priors are complementary and, together, exploit the probabilistic structure in the latents better than all previous learned models. The combined model yields state-of-the-art rate--distortion performance, providing a 15.8% average reduction in file size over the previous state-of-the-art method based on deep learning, which corresponds to a 59.8% size reduction over JPEG, more than 35% reduction compared to WebP and JPEG2000, and bitstreams 8.4% smaller than BPG, the current state-of-the-art image codec. To the best of our knowledge, our model is the first learning-based method to outperform BPG on both PSNR and MS-SSIM distortion metrics.
연구 동기 및 목표
- GSM 기반 엔트로피 모델을 가우시안 혼합 사전으로 확장한다.
- 엔트로피를 더 줄이기 위해 자기회귀 컨텍스트 모델을 도입한다.
- 자기회귀 컨텍스트와 하이퍼프라이어를 결합하여 레이트-왜곡 성능을 극대화한다.
- 컨텍스트 크기, 분포, 복잡성 간의 트레이드오프를 평가하고 변형을 정량화한다.
- 표준 벤치마크(Kodak)에서 최첨단 결과를 시연하고 BPG 및 다른 코덱과 비교한다.
제안 방법
- 하이퍼프라이어에 조건화된 가우시안 혼합 모델로 엔트로피 모델을 스케일 하이퍼프라이어에서 일반화했다.
- 각 잠재 변수에 대해 평균 및 스케일을 예측하기 위해 잠재들에 대한 자기회귀 컨텍스트 모델을 추가했다.
- 컨텍스트 모델과 하이퍼프라이어를 결합하여 조건부 가우시안이 있는 공동 엔트로피 모델을 형성했다; 레이트-디스토션 목적함수로 엔드투엔드 학습했다.
- 학습 중 미분 가능성을 위해 잠재를 단위 균등분포와 컨볼루션한 가우시안으로 모델링했다.
- 두 부분 잠재 파이프라인(y 및 z)을 사용했고, 각각 손실 함수에서 해당 엔트로피 비용이 부여된다.
- 아키텍처 변형(컨텍스트 전용, 하이퍼프라이어 전용 및 결합)을 탐색하고 컨텍스트 크기와 분포 선택을 분석했다.
실험 결과
연구 질문
- RQ1학습 기반 이미지 코덱에서 자기회귀 프라이어가 계층적 프라이어와 결합될 때 압축 성능을 향상시킬 수 있는가?
- RQ2가우시안 혼합 엔트로피 모델을 스케일 하이퍼프라이어와 비교했을 때 레이트-디스토션 성능에 어떤 영향을 미치는가?
- RQ3컨텍스트(자기회귀)와 하이퍼프라이어를 결합하는 것이 비트스트림 크기와 재구성 품질에 어떤 영향을 미치는가?
- RQ4학습 기반 이미지 압축에서 모델 복잡성, 컨텍스트 크기, 압축 이익 사이의 실용적 트레이드오프는 무엇인가?
주요 결과
- 결합된 자기회귀 및 하이퍼프라이어 모델이 최첨단 레이트-디스토션 성능을 달성한다.
- 결합된 모델은 이전 최첨단 학습 방법 대비 평균 파일 크기를 15.8% 감소시킨다.
- 그 감소는 JPEG 대비 59.8%의 크기 감소에 해당하며 WebP 및 JPEG2000 대비 35% 이상 감소이다.
- 비트스트림은 당시 최첨단 코덱인 BPG보다 8.4% 작다.
- 저자들의 지식에 따르면 이 모델은 PSNR과 MS-SSIM 모두에서 BPG를 능가하는 최초의 학습 기반 방법이다.
- 가우시안 혼합 엔트로피 모델은 점근적 복잡도를 증가시키지 않으면서 더 간단한 GSM에 비해 이점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.