Skip to main content
QUICK REVIEW

[논문 리뷰] Variable Rate Image Compression with Recurrent Neural Networks

George Toderici, Sean M. O’Malley|arXiv (Cornell University)|2015. 11. 19.
Advanced Data Compression Techniques참고 문헌 17인용 수 118
한 줄 요약

이 논문은 저비트레이트에서 JPEG, WebP, JPEG2000보다 뛰어난 시각적 품질을 달성하는 컨volutional 및 디컨볼루션al LSTM 순환 네트워크를 사용한 가변 비트레이트 이미지 압축 프레임워크를 제안한다. 이 모델은 단일 학습된 네트워크로 진행형이며 비트레이트 적응형 압축을 가능하게 하여, 32×32 미리보기에서 SSIM 및 시각적 품질 측면에서 표준 코덱을 능가하며 저장 용량을 10% 이상 절감한다.

ABSTRACT

A large fraction of Internet traffic is now driven by requests from mobile devices with relatively small screens and often stringent bandwidth requirements. Due to these factors, it has become the norm for modern graphics-heavy websites to transmit low-resolution, low-bytecount image previews (thumbnails) as part of the initial page load process to improve apparent page responsiveness. Increasing thumbnail compression beyond the capabilities of existing codecs is therefore a current research focus, as any byte savings will significantly enhance the experience of mobile device users. Toward this end, we propose a general framework for variable-rate image compression and a novel architecture based on convolutional and deconvolutional LSTM recurrent networks. Our models address the main issues that have prevented autoencoder neural networks from competing with existing image compression algorithms: (1) our networks only need to be trained once (not per-image), regardless of input image dimensions and the desired compression rate; (2) our networks are progressive, meaning that the more bits are sent, the more accurate the image reconstruction; and (3) the proposed architecture is at least as efficient as a standard purpose-trained autoencoder for a given number of bits. On a large-scale benchmark of 32$ imes$32 thumbnails, our LSTM-based approaches provide better visual quality than (headerless) JPEG, JPEG2000 and WebP, with a storage size that is reduced by 10% or more.

연구 동기 및 목표

  • 이미지 압축에서 오토에인코더 기반 신경망의 한계, 즉 고정 비트레이트 인코딩과 다양한 이미지 크기 간의 일반화 능력 부족을 해결하기 위해.
  • 다양한 이미지 치수와 목표 비트레이트에서 가변 비트레이트 압축을 가능하게 하는 단일 학습 가능한 신경망 아키텍처를 개발하기 위해.
  • 낮은 비트레이트의 미리보기 압축에서 흔히 발생하는 블록 아티팩트 및 색상 번짐 등의 잡음 개선을 위해.
  • 더 높은 비트레이트에서 점진적으로 정확도가 향상되는 이미지 재구성 가능성을 제공하기 위해.
  • 크로마 서브샘플링과 같은 코덱 전용 사전 처리나 수작업 최적화 히우리스틱이 필요 없도록 하기 위해.

제안 방법

  • 이 프레임워크는 이미지 패치의 공간적 및 시간적 의존성을 모델링하기 위해 컨볼루션 및 디컨볼루션al LSTM 레이어를 사용한 인코더-디코더 구조의 순환 오토에인코더를 활용한다.
  • 인코더는 스택된 컨볼루션al LSTM을 사용해 입력 이미지를 버티브 레이어 표현으로 압축하고, 디코더는 디컨볼루션al LSTM을 사용해 이미지를 재구성한다.
  • 버티브 레이어에 대해 미분 가능한 양자화 레이어를 적용하여 이산적인 비트스트림 표현을 생성함으로써, backpropagation를 통한 엔드 투 엔드 학습이 가능해진다.
  • 버티브에 할당된 비트 수를 조절하여 가변 비트레이트 압축을 지원하며, 재구성의 점진적 정밀도 향상이 가능하다.
  • 다양한 이미지 콘텐츠에 일반화될 수 있도록 2,100만 개의 32×32 미리보기로 구성된 대규모 데이터셋에서 엔드 투 엔드로 학습된다.
  • 컨볼루션 변형에서는 활동도가 높은 영역을 우선순위로 배정하기 위해 동적 비트 할당 전략을 적용하지만, 경계 아티팩트가 발생할 수 있다.

실험 결과

연구 질문

  • RQ1재학습 없이도 다양한 이미지 크기와 목표 비트레이트에서 가변 비트레이트 압축을 지원할 수 있는 단일 신경망을 학습시킬 수 있는가?
  • RQ2낮은 비트레이트에서 LSTM 기반 오토에인코더는 JPEG 및 WebP와 같은 표준 코덱에 비해 시각적 품질 측면에서 어떻게 비교되는가?
  • RQ3순환 아키텍처는 저해상도 미리보기에서 공간적 중복성을 효과적으로 모델링하고 고주파 수치를 유지할 수 있는가?
  • RQ4LSTM 모델이 크로마 서브샘플링을 사용하지 않음에도 불구하고, 이를 사용하는 코덱에 비해 동일한 비트레이트에서 더 높은 품질을 제공하는가?
  • RQ5비트 할당량을 늘릴수록 이미지 정밀도가 향상되는 점진적 재구성 기능을 모델이 달성할 수 있는가?

주요 결과

  • 컨볼루션 및 디컨볼루션al LSTM 모델은 모든 테스트된 낮은 비트레이트에서 JPEG 및 WebP보다 높은 SSIM 점수를 기록했으며, 동일하거나 낮은 비트레이트에서 시각적 품질이 4%~12% 향상되었다.
  • 0.625 bpp에서 (de)convolutional LSTM 모델은 더 높은 비트레이트에서 JPEG 및 WebP의 SSIM을 맞추거나 초월하여, 더 뛰어난 비트레이트-왜곡 효율성을 보였다.
  • 특히 낮은 비트레이트에서 JPEG 및 WebP보다 눈에 띄는 블록 아티팩트와 색상 번짐을 줄였으며, 과도한 부드러움을 방지했다.
  • 32×32 미리보기에서 동일한 시각적 품질을 유지할 경우, JPEG, WebP, JPEG2000보다 저장 용량을 10% 이상 절감했다.
  • 크로마 서브샘플링 없이도 높은 성능를 유지했으며, JPEG는 4:4:4 인코딩을 사용할 경우 비트레이트가 26% 증가하는 데 반해 이를 피했다.
  • 이 프레임워크는 점진적 재구성을 가능하게 하며, 더 높은 비트 할당량에서 더 나은 이미지 재구성 결과를 도출할 수 있고, 단일 모델이 모든 목표 비트레이트를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.