QUICK REVIEW

[논문 리뷰] Lossy Image Compression with Compressive Autoencoders

Lucas Theis, Wenzhe Shi|arXiv (Cornell University)|2017. 03. 01.

Advanced Data Compression Techniques참고 문헌 30인용 수 259

한 줄 요약

논문은 엔드-투-엔드 손실 이미지 압축을 위한 압축적 자동인코더(CAEs)를 소개하고, 양자화의 미분 불가능성 문제를 gradient-friendly surrogate와 엔트로피 모델링으로 해결하며, 효율적인 고해상도 디코딩으로 JPEG 2000과 경쟁력 있는 결과를 보임.

ABSTRACT

We propose a new approach to the problem of optimizing autoencoders for lossy image compression. New media formats, changing hardware technology, as well as diverse requirements and content types create a need for compression algorithms which are more flexible than existing codecs. Autoencoders have the potential to address this need, but are difficult to optimize directly due to the inherent non-differentiabilty of the compression loss. We here show that minimal changes to the loss are sufficient to train deep autoencoders competitive with JPEG 2000 and outperforming recently proposed approaches based on RNNs. Our network is furthermore computationally efficient thanks to a sub-pixel architecture, which makes it suitable for high-resolution images. This is in contrast to previous work on autoencoders for compression using coarser approximations, shallower architectures, computationally expensive methods, or focusing on small images.

연구 동기 및 목표

전통적인 코덱을 넘어서는 유연한 손실 압축의 필요성을 동기 부여한다.
학습 가능한 프레임워크(CAE)를 제안하여 속도-왜곡을 함께 최적화한다.
양자화 및 엔트로피 코딩을 다루는 미분 가능 전략을 개발한다.
표준 데이터셋에서의 경쟁력 있는 성능을 입증하고 주관적 품질을 분석한다.

제안 방법

엔코더 f, 디코더 g, 그리고 엔트로피 모델 Q를 갖는 compressive autoencoder를 정의한다.
역-정보량 목표를 -log2 Q([f(x)]) + beta * d(x, g([f(x)]))의 미분 가능 근사로 최적화한다.
역전파를 위한 간단한 미분 가능 대리함수를 사용하여 비미분적 반올림 기반 양자화 그래디언트를 대체한다.
연속 확률 밀도 q와 Jensen의 부등식을 이용하여 비미분적 비트 비용의 상한을 설정하고 그래디언트 기반 학습을 가능하게 한다.
엔코딩된 계수의 분포를 엔트로피 코딩을 위해 가우시안 스케일 혼합으로 모델링한다.
서브픽셀 컨볼루션 아키텍처와 점진적/미세 조정 학습을 사용하여 고해상도 성능을 효율적으로 달성한다.
비트레이트-속도 곡선에서 비트레이트를 조정하는 스케일 매개변수를 학습시켜 유연한 비트레이트 제어를 제공한다.

실험 결과

연구 질문

RQ1CAEs가 자연 이미지에 대해 JPEG 2000 및 RNN 기반 방법과 비교해 경쟁력 있는 속도-왜곡 성능에 도달할 수 있는가?
RQ2엔드 투 엔드 학습 중에 비미분적 양자화 및 엔트로피 코딩을 효과적으로 어떻게 다룰 수 있는가?
RQ3효율적인 아키텍처(서브픽셀 업샘플링)가 고해상도 이미지를 거의 실시간으로 디코딩 가능하게 하는가?
RQ4비트레이트-속도 설정 전반에 걸친 점진적 학습과 미세 조정이 안정성과 성능을 향상시키는가?
RQ5CAEs가 SSIM, MS-SSIM, MOS와 같은 지각 품질 지표에서 표준 코덱과 비교해 어떤 성능을 보이는가?

주요 결과

CAE는 Kodak 이미지에서 SSIM 및 MOS와 같은 지각 지표에서 JPEG 2000과 동등하거나 더 우수한 성능을 달성한다.
CAE는 특정 비트레이트에서 SSIM 및 MOS에서 JPEG 2000을 능가하고 JPEG 2000보다 더 부드러운 artefact를 제공한다.
서브픽셀 업샘플링이 가능한 효율적 컨볼루션 아키텍처는 소비자 하드웨어에서 고해상도 디코딩을 가능하게 한다.
점진적 학습과 학습된 스케일 매개변수는 많은 수의 별도 모델을 훈련하지 않고도 비트레이트를 유연하고 미세하게 제어한다.
엔드-투-엔드 최적화로 CAE가 콘텐츠별 작업 및 전통적 코덱을 넘어서는 지표에 적응할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.