Skip to main content
QUICK REVIEW

[논문 리뷰] Non-local Attention Optimized Deep Image Compression

Haojie Liu, Tong Chen|arXiv (Cornell University)|2019. 04. 22.
Advanced Data Compression Techniques참고 문헌 26인용 수 75
한 줄 요약

비국소 주의 프레임워크(NLAIC)를 도입하여 변분 오토인코더 기반 이미지 압축에서 하이퍼프라이어와 잠재 특징을 비국소 주의와 함께 공동 모델링하여 엔트로피 부호화와 비트 배분을 개선하며, Kodak 데이터셋에서 MS-SSIM 및 PSNR에 대해 최첨단 성능을 달성한다.

ABSTRACT

This paper proposes a novel Non-Local Attention Optimized Deep Image Compression (NLAIC) framework, which is built on top of the popular variational auto-encoder (VAE) structure. Our NLAIC framework embeds non-local operations in the encoders and decoders for both image and latent feature probability information (known as hyperprior) to capture both local and global correlations, and apply attention mechanism to generate masks that are used to weigh the features for the image and hyperprior, which implicitly adapt bit allocation for different features based on their importance. Furthermore, both hyperpriors and spatial-channel neighbors of the latent features are used to improve entropy coding. The proposed model outperforms the existing methods on Kodak dataset, including learned (e.g., Balle2019, Balle2018) and conventional (e.g., BPG, JPEG2000, JPEG) image compression methods, for both PSNR and MS-SSIM distortion metrics.

연구 동기 및 목표

  • 이미지 도메인과 잠재 특징 도메인 모두에서 지역적 및 글로벌 상관관계를 포착하여 향상된 이미지 압축을 목표로 한다.
  • 비국소 주의를 포함한 VAE 기반 아키텍처를 개발하여 적응적 비트 배분을 위한 암묵적 중요 마스크를 생성한다.
  • 하이퍼프라이어와 잠재 특징의 공간-채널 컨텍스트를 사용하여 엔트로피 모델링을 향상시킨다.
  • 표준 벤치마크에서 학습된 코덱 및 전통적인 코덱에 비해 최첨단 rate-distortion 성능을 입증한다.

제안 방법

  • 주 인코더/디코더와 하이퍼프라이어 인코더/디코더에 비국소 주의 모듈(NLAM)을 내장하여 로컬 및 글로벌 픽셀/특징 상관관계를 포착한다.
  • 호출 없이 암묵적 특징 중요도를 가능하게 하는 비국소 모듈과 잔차 블록의 연쇄를 통해 어텐션 마스크를 생성한다.
  • 엔트로피 부호화를 위해 하이퍼프라이어와 함께 공간-채널 이웃으로부터의 조건부 통계를 모델링하기 위해 한 층의 마스킹된 3D CNN을 사용한다.
  • 두 가지 변형을 제공한다: NLAIC baseline(하이퍼프라이어만) 및 NLAIC joint(하이퍼프라이어 plus 자기회귀 이웃을 통한 컨텍스트 모델링).
  • 다양한 비트레이트 범위에서 MS-SSIM 또는 MSE 손실을 목표로 엔드투엔드로 rate-distortion 최적화를 수행한다.

실험 결과

연구 질문

  • RQ1학습된 이미지 압축에서 비국소 주의가 잠재 표현 및 엔트로피 부호화 효율을 개선할 수 있는가?
  • RQ2자기회귀 이웃을 포함한 공동 컨텍스트 모델링이 하이퍼프라이어만의 컨텍스트 모델링보다 rate-distortion에서 우수한가?
  • RQ3주목 마스크가 비트 배분과 변형(MS-SSIM 및 PSNR) 전반의 지각 품질에 미치는 영향은 무엇인가?
  • RQ4표준 벤치마크에서 NLAIC가 JPEG, JPEG2000, BPG 및 다른 학습 코덱과 어떻게 비교되는가?

주요 결과

  • 공동 컨텍스트 모델링을 사용하는 NLAIC은 Kodak에서 MS-SSIM과 PSNR 모두에 대해 최첨단 rate-distortion 성능을 달성했다.
  • 조합 모델은 JPEG 대비 BD-Rate를 JPEG420에서 64.39%, BPG444에서 12.26% 감소시켰다(논문에 보고된 평균 결과).
  • 공초 연구에서 NLAM 구성 요소를 제거하면 PSNR이 저하되는 반면, 주 인코더/디코더에서 NLAM 마스크를 유지하면 최상의 성능이 나온다.
  • NLAIC 베이스라인은 다수의 기존 방법을 능가하며, NLAIC joint가 더 큰 성능 향상을 제공한다.
  • 하이퍼프라이어는 압축 효율에 기여하며, 목표 비트레이트와 손실 함수에 따라 비트 기여도는 달라진다.
  • 해당 방법은 BSD500에서 주관적 품질이 더 우수하고, 기준치 대비 객관적 지표도 경쟁력 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.