QUICK REVIEW

[논문 리뷰] Towards image compression with perfect realism at ultra-low bitrates

Marlène Careil, Matthew J. Muckley|arXiv (Cornell University)|2023. 10. 16.

Advanced Image Processing Techniques인용 수 8

한 줄 요약

PerCo는 벡터 양자화 잠재 표현과 텍스트 캡션에 조건화된 확산 기반 디코더를 사용하여 초저비트레이트에서도 지각적으로 현실적인 이미지 재구성을 달성하고, 픽셀당 아주 낮은 비트에서 현 상태의 최첨단 코덱을 현실성 지표에서 능가합니다.

ABSTRACT

Image codecs are typically optimized to trade-off bitrate \vs distortion metrics. At low bitrates, this leads to compression artefacts which are easily perceptible, even when training with perceptual or adversarial losses. To improve image quality and remove dependency on the bitrate, we propose to decode with iterative diffusion models. We condition the decoding process on a vector-quantized image representation, as well as a global image description to provide additional context. We dub our model PerCo for 'perceptual compression', and compare it to state-of-the-art codecs at rates from 0.1 down to 0.003 bits per pixel. The latter rate is more than an order of magnitude smaller than those considered in most prior work, compressing a 512x768 Kodak image with less than 153 bytes. Despite this ultra-low bitrate, our approach maintains the ability to reconstruct realistic images. We find that our model leads to reconstructions with state-of-the-art visual quality as measured by FID and KID. As predicted by rate-distortion-perception theory, visual quality is less dependent on the bitrate than previous methods.

연구 동기 및 목표

전통적인 레이트-왜곡(tradeoff) 트레이드오프를 넘어서 매우 낮은 비트레이트에서도 현실감을 유지하는 이미지 압축을 제시한다.
압축된 잠재 공간으로부터 현실적인 이미지를 재구성하기 위한 확산 모델 기반 디코더를 도입한다.
지역 잠재 표현과 전역 텍스트 이미지 설명을 모두 사용한 조건화를 강화한다.
Kodak 및 MS-COCO 30k에서 최첨단 코덱과 비교하여 현실감과 의미 보존을 평가한다.

제안 방법

이미지를 VQ-VAE 유사한 하이프라이어와 잠재 확산 모델(LDM) 인코더가 통합된 형태로 로컬 잠재와 글로벌 잠재로 인코딩한다.
하이퍼 잠재를 양자화하고 균일한 코드를 사용해 이를 전송하여 비트스트림을 형성한다.
확산 기반 디코더를 양자화된 로컬 특징과 이미지를 설명하는 손실 없이 전송된 텍스트 캡션 모두에 조건화한다; 텍스트 조건화를 위해 크로스-어텐션을 적용한다.
확산 재구성 손실(확산 기반 왜곡 항 포함)과 선택적 LPIPS 기반 인지 손실을 포함하는 손실로 학습한다; 추론 시 가이던스 스케일로 classifier-free 가이던스를 사용한다.
사전 학습된 텍스트 조건 확산 모델을 활용하고 자동인코더 가중치를 고정하며 OpenImages에서 하이퍼 인코더와 확산 구성요소만 미세조정한다.

실험 결과

연구 질문

RQ1텍스트 및 로컬 시각적 맥락으로 조건화된 확산 기반 디코더가 초저비트레이트(0.003 bpp까지도)에서 현실적인 재구성을 달성할 수 있는가?
RQ2벡터 양자화 잠재 표현과 전역 캡션의 결합이 낮은 레이트에서 현실감과 의미 보존을 향상시키는가?
RQ3PerCo가 기준치와 비교하여 다양한 비트레이트에서 현실성 지표(FID/KID)와 의미 지표(CLIP, mIoU)가 어떻게 작용하는가?
RQ4조건화 모듈(텍스트 대 공간)과 classifier-free 가이던스가 재구성 품질에 미치는 영향은 무엇인가?
RQ5더 높은 해상도에서의 한계와 PerCo의 병목을 드러내는 중단 실험은 무엇인가?

주요 결과

PerCo는 Kodak/MS-COCO 30k에서 0.0032 bpp의 초저비트레이트에서 현실적인 재구성을 달성하고 낮은 비트레이트에서 최첨단 FID 및 KID 점수를 달성한다.
PerCo의 FID 및 KID 곡선은 비트레이트 전반에서 더 평탄하여 현실감과 비트레이트의 분리가 나타난다.
의미 관련 지표(CLIP, mIoU)가 기준선에 비해 향상되며 특히 저비트레이트에서 두드러진다.
a-blations은 텍스트 조건화와 공간 조건화 모두 FID 및 mIoU 개선에 기여함을 보여주며, 실제 캡션(ground-truth 캡션)은 BLIP/IDEFICS 캡션과 유사한 경향을 보인다.
성능은 주로 양자화 병목현상에 의해 좌우되며 확산 모델이 아니라 LDM 자동 인코더가 주목할 만한 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.