Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Convolutional Networks for Content-weighted Image Compression

Mu Li, Wangmeng Zuo|arXiv (Cornell University)|2017. 03. 30.
Advanced Data Compression Techniques참고 문헌 21인용 수 21
한 줄 요약

이 논문은 CNN 기반 압축에서 공간적으로 변동하는 비트 할당을 가능하게 하기 위해 학습 가능한 중요도 맵을 사용하는 콘텐츠 가중치 이미지 압축 프레임워크를 제안한다. 이중 이산 엔트로피 추정을 연속적인 중요도 맵 합으로 대체하고, 이산화 과정을 위한 미분 가능한 대체 함수를 사용함으로써, 최적화 중에 명시적 엔트로피 코딩 없이도 엔드 투 엔드 학습이 가능해졌으며, 저비트레이트에서 JPEG 및 JPEG 2000보다 뛰어난 SSIM 및 시각적 품질을 달성하였다.

ABSTRACT

Lossy image compression is generally formulated as a joint rate-distortion optimization to learn encoder, quantizer, and decoder. However, the quantizer is non-differentiable, and discrete entropy estimation usually is required for rate control. These make it very challenging to develop a convolutional network (CNN)-based image compression system. In this paper, motivated by that the local information content is spatially variant in an image, we suggest that the bit rate of the different parts of the image should be adapted to local content. And the content aware bit rate is allocated under the guidance of a content-weighted importance map. Thus, the sum of the importance map can serve as a continuous alternative of discrete entropy estimation to control compression rate. And binarizer is adopted to quantize the output of encoder due to the binarization scheme is also directly defined by the importance map. Furthermore, a proxy function is introduced for binary operation in backward propagation to make it differentiable. Therefore, the encoder, decoder, binarizer and importance map can be jointly optimized in an end-to-end manner by using a subset of the ImageNet database. In low bit rate image compression, experiments show that our system significantly outperforms JPEG and JPEG 2000 by structural similarity (SSIM) index, and can produce the much better visual result with sharp edges, rich textures, and fewer artifacts.

연구 동기 및 목표

  • 엔드 투 엔드 CNN 기반 이미지 압축에서 비가역적인 양자화와 이산 엔트로피 추정의 과제를 해결하기 위해.
  • 지역 이미지 콘텐츠 복잡도를 반영하는 중요도 맵을 학습시켜 공간적으로 변동하는 비트 할당을 가능하게 하기 위해.
  • 전통적인 엔트로피 비트레이트 추정을 중요도 맵의 합을 기반으로 한 연속적 대체 함수로 대체하여 비트레이트 제어를 위한 것이며.
  • 비가역적인 양자화 단계를 거쳐도 역전파가 가능하도록 하는, 프oxy 함수를 사용한 미분 가능한 이진화 방법을 개발하기 위해.
  • 콘텐츠 인식 비트 할당을 통해 엣지와 텍스처를 보존함으로써 저비트레이트 압축에서 시각적 품질을 향상시키기 위해.

제안 방법

  • 컨볼루션 인코더가 입력 이미지에서 특징 맵을 생성하고, 이를 별도의 중요도 맵 네트워크가 처리하여 공간적으로 변동하는 중요도 맵을 생성한다.
  • 중요도 맵은 각 공간 위치에서 얼마나 많은 특징 맵이 인코딩될지를 결정하여 콘텐츠 적응형 비트 할당을 가능하게 한다.
  • 이진화기에서는 0.5 이상의 값을 1로, 나머지는 0으로 설정하며, 역전파를 가능하게 하기 위해 프록시 함수를 사용한다.
  • 중요도 맵의 합은 총 비트레이트의 연속적이고 미분 가능한 근사치로 작용하여, 손실 함수에서 이산 엔트로피 추정을 대체한다.
  • 양자화 이후에 컨볼루션 엔트로피 코더를 적용하여 이진 코드와 중요도 맵을 문맥 모델링을 통해 추가로 압축한다.
  • 전체 시스템은 ImageNet의 일부 데이터셋에서 엔드 투 엔드로 학습되며, 손실 함수에 명시적인 엔트로피 비트레이트 항목이 없고, 비트레이트 제어는 오직 중요도 맵에 의존한다.

실험 결과

연구 질문

  • RQ1학습 가능한 중요도 맵이 CNN 기반 이미지 압축에서 이산 엔트로피 추정을 효과적으로 대체할 수 있는가?
  • RQ2콘텐츠 인식 중요도 맵에 의해 이끌리는 공간적으로 변동하는 비트 할당은 비트레이트-왜곡 성능과 시각적 품질에 어떤 영향을 미치는가?
  • RQ3미분 가능한 프록시 함수를 통해 비가역적인 양자화 단계를 거친 압축 시스템의 엔드 투 엔드 학습이 가능한가?
  • RQ4학습 중에 명시적인 엔트로피 코딩이 없을 경우, 별도의 엔트로피 코더를 사용할 때 압축 효율성에 어떤 영향을 미치는가?
  • RQ5모델이 학습한 중요도 맵이 엣지와 텍스처에 비트 할당하는 데 있어 인간 시각 인지와 얼마나 일치하는가?

주요 결과

  • 제안된 방법은 저비트레이트에서 JPEG 및 JPEG 2000보다 유의미하게 높은 구조적 유사도(SSIM)를 달성하였으며, 시각적 품질 향상도 측정 가능했다.
  • JPEG 2000 및 Ballé [1]와 비교해 날카운 엣지, 풍부한 텍스처, 그리고 흐림, 리버버브, 블록 효과 등의 아티팩트가 줄어들었다.
  • 중요도 맵이 없는 기준 모델은 MSE, PSNR, SSIM 측면에서 JPEG 2000보다 열 劣하므로 중요도 맵의 필요성을 입증하였다.
  • 중요도 맵은 저비트레이트에서 두드러진 엣지에 더 많은 비트를 할당하는 경향을 보이며, 비트레이트가 증가함에 따라 중간 및 소규모 텍스처까지 점차 커버함으로써 인간의 인지와 일치한다.
  • 컨볼루션 엔트로피 인코더는 작은 문맥을 사용할 경우 기존 CABAC보다 뛰어나며, 더 큰 문맥을 사용할 경우 성능 향상이 더욱 두드러지며, 비트레이트-왜곡 성능을 추가로 향상시킨다.
  • 이진 코드 또는 중요도 맵만 인코딩된 경우에도 전체 모델이 양측 요소를 모두 포함할 때 가장 뛰어난 성능을 보이며, 이는 두 구성 요소가 상호 보완적 역할을 한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.