QUICK REVIEW

[논문 리뷰] Neural Image Compression via Non-Local Attention Optimization and Improved Context Modeling

Tong Chen, Haojie Liu|arXiv (Cornell University)|2019. 10. 11.

Advanced Data Compression Techniques참고 문헌 37인용 수 36

한 줄 요약

본 논문은 비지역(non-local) 주의력과 향상된 3D 컨텍스트 모델링을 활용하는 CNN 기반 변분 오토인코더를 이미지 압축에 적용한 NLAIC를 제시합니다. 이를 통해 Kodak 및 CLIC 데이터셋에서 최첨단 레이트-디스토션 성능을 달성합니다.

ABSTRACT

This paper proposes a novel Non-Local Attention optmization and Improved Context modeling-based image compression (NLAIC) algorithm, which is built on top of the deep nerual network (DNN)-based variational auto-encoder (VAE) structure. Our NLAIC 1) embeds non-local network operations as non-linear transforms in the encoders and decoders for both the image and the latent representation probability information (known as hyperprior) to capture both local and global correlations, 2) applies attention mechanism to generate masks that are used to weigh the features, which implicitly adapt bit allocation for feature elements based on their importance, and 3) implements the improved conditional entropy modeling of latent features using joint 3D convolutional neural network (CNN)-based autoregressive contexts and hyperpriors. Towards the practical application, additional enhancements are also introduced to speed up processing (e.g., parallel 3D CNN-based context prediction), reduce memory consumption (e.g., sparse non-local processing) and alleviate the implementation complexity (e.g., unified model for variable rates without re-training). The proposed model outperforms existing methods on Kodak and CLIC datasets with the state-of-the-art compression efficiency reported, including learned and conventional (e.g., BPG, JPEG2000, JPEG) image compression methods, for both PSNR and MS-SSIM distortion metrics.

연구 동기 및 목표

Local 및 글로벌 이미지 상관관계 포착으로 압축 성능 개선 동기 부여.
Explicit signaling 없이 비트 할당을 적응시키도록 내장된 비지역 주의력을 갖춘 VAE 기반 코더 개발.
잠재 특징 예측을 위한 joint 3D 자기회귀 컨텍스트와 하이퍼프리어를 통한 엔트로피 모델링 강화.
실무 배치를 위한 메모리 및 계산 감소를 위한 실용적 확장 제안.
일반 벤치마크에서 학습된 코덱 및 전통 코덱에 비해 우수한 레이트-디스토션 성능 시연.

제안 방법

로컬 및 글로벌 상관관계를 포착하기 위해 주 네트워크 및 하이퍼프리어 인코더/디코더에 비선형 변환으로 비지역 네트워크 연산을 내장합니다.
신호 오버헤드 없이 특징 간 비트 할당을 암시적으로 적응시키는 마스크를 생성하기 위한 주의 메커니즘을 적용합니다.
latent features의 조건부 엔트로피 추정치를 위해 하이퍼프리어와 함께 3D 마스킹된 컨볼루션 기반 자기회귀 컨텍스트 모델을 사용합니다.
NLAM(비지역 주의 모듈)을 다층 주의 마스크로 포함시켜 엔드 투 엔드 학습을 안내합니다.
복잡도 감소 옵션 도입: 희소 비지역 처리, 병렬 3D 컨텍스트 모델링, 품질 스케일링 요소를 통한 통합 가변 레이트 모델.
잠재 및 하이퍼프리어 레이트와 왜곡 항(MSE 또는 MS-SSIM)을 결합한 레이트-디스토션 목표로 엔드투엔드 학습합니다.

실험 결과

연구 질문

RQ1학습된 이미지 압축에서 비지역 상관관계를 어떻게 활용하여 레이트-디스토션 성능을 개선할 수 있는가?
RQ2주의가 생성한 암시적 마스크가 명시적 신호 오버헤드 없이 적응적 비트 할당을 가능하게 하는가?
RQ33D 자기회귀 컨텍스트와 하이퍼프리어를 함께 사용하는 것이 잠재 특징의 엔트로피 모델링을 향상시키는가?
RQ4실용적 확장(희소 NLAM, 병렬 3D 컨텍스트, 통합 가변 레이트 모델)이 성능 손실 없이 속도와 메모리를 개선하는가?
RQ5NLAIC은 표준 벤치마크(Kodak, CLIC)에서 전통 코덱 및 다른 학습 압축기 대비 어떤 성능을 보이는가?

주요 결과

NLAIC은 Kodak 및 CLIC 데이터셋에서 PSNR 및 MS-SSIM 모두에 대해 기존 학습형 및 전통 코덱을 능가합니다.
명시적 비트 할당 신호 없이도 적응적 처리를 가능하게 하는 다층 비지역 주의 마스크를 도입합니다.
자기회귀 공간-채널 이웃 및 하이퍼프리어를 함께 사용하는 3D 마스킹된 컨텍스트 모델은 엔트로피 코딩을 위한 더 정확한 조건 통계치를 제공합니다.
실용 확장(희소 NLAM, 병렬 3D 컨텍스트 모델링, 통합 가변 레이트 모델)은 코딩 효율 손실을 거의 없이 메모리 및 계산을 감소시킵니다.
여러 기준 벤치마크에 대한 BD-Rate 이점: JPEG 기준 대비 64.39%, Minnen2018 대비 59.84%, BPG (YCbCr 4:4:4) HM 대비 59.46%, Ballé2018 대비 56.19%, JPEG2000 대비 38.02%.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.