QUICK REVIEW

[논문 리뷰] Lossy Compression with Gaussian Diffusion

Lucas Theis, Tim Salimans|arXiv (Cornell University)|2022. 06. 17.

Generative Adversarial Networks and Image Synthesis인용 수 20

한 줄 요약

DiffC은 조건 없는 확산 모델과 가우시안 노이즈를 사용하여 손상된 픽셀을 전달하는 손실 압축을 수행하며, 인코더 트랜스폼 없이도 경쟁력 있는 비트율–왜곡 및 현실감을 달성하고, 일부 설정에서 ImageNet 64x64에서 HiFiC를 능가합니다. 진행 가능한 디코딩을 지원하고, 비트율–왜곡 이론 및 흐름 기반 재구성 이점을 제공합니다.

ABSTRACT

We consider a novel lossy compression approach based on unconditional diffusion generative models, which we call DiffC. Unlike modern compression schemes which rely on transform coding and quantization to restrict the transmitted information, DiffC relies on the efficient communication of pixels corrupted by Gaussian noise. We implement a proof of concept and find that it works surprisingly well despite the lack of an encoder transform, outperforming the state-of-the-art generative compression method HiFiC on ImageNet 64x64. DiffC only uses a single model to encode and denoise corrupted pixels at arbitrary bitrates. The approach further provides support for progressive coding, that is, decoding from partial bit streams. We perform a rate-distortion analysis to gain a deeper understanding of its performance, providing analytical results for multivariate Gaussian data as well as theoretic bounds for general distributions. Furthermore, we prove that a flow-based reconstruction achieves a 3 dB gain over ancestral sampling at high bitrates.

연구 동기 및 목표

DiffC 기반의 조건 없는 확산 모델을 기반으로 한 새로운 손실 압축 접근 방식 탐색.
재구성물이 데이터 주변 분포와 일치하는 현실감 제약을 평가합니다.
가우시안 및 일반 분포에 대한 비트율-왜곡 특성을 분석합니다.
ImageNet 64x64에서 DiffC를 최첨단 생성 코덱 및 전통적 방법과 비교합니다.
흐름 기반 재구성 이점을 포함한 이론적 통찰을 제공합니다.

제안 방법

Z_t = sqrt(1−σ_t^2) X + σ_t U로 데이터의 손상 버전을 전송합니다. 여기서 U ~ N(0,I)입니다.
확산 모델을 사용하여 과정을 역방향으로 역전시키고 Z_t에서 X를 상속 샘플링 또는 확률 흐름 ODE(확산 vs. 흐름 재구성)를 통해 재구성합니다.
코딩 비용의 상한을 갖는 역채널 코딩을 통해 정확한 Gaussian 샘플을 인코딩합니다.
노이즈 일정과 최적화된 변형(DiffC-A*, DiffC-F*)을 포함하여 Gaussian 및 일반 분포에 대한 비트율-왜곡 분석을 도출합니다.
고비트레이트에서 흐름 기반 재구성이 선조 샘플링보다 3 dB 이득임을 보이는 이론적 결과를 제공합니다.
ImageNet 64x64에서 확산 모델 구현(VDM)을 실험하고, DiffC를 HiFiC 및 BPG와 비교하며, 진행적 코딩 및 PSNR/FID 지표를 포함합니다.

실험 결과

연구 질문

RQ1조건 없는 확산 모델과 가우시안 노이즈가 인코더 트랜스폼 없이도 다양한 비트레이트에서 현실적인 재구성을 달성할 수 있습니까?
RQ2완벽한 현실성 제약 하에서 DiffC의 비트율-왜곡 성능은 결정론적 인코더와 비교하여 어떤가요?
RQ3가우시안 및 일반 데이터 분포에 대한 DiffC의 이론적 비트율-왜곡 특성은 무엇이며, 흐름 기반 재구성이 선조 샘플링과 어떻게 비교됩니까?
RQ4DiffC가 진행적 코딩 기능을 제공합니까 그리고 ImageNet 64x64에서 HiFiC 및 BPG와 비교했을 때 재구성은 어떤가요?
RQ5노이즈 스케줄, 흐름 대 선조 샘플링과 같은 확산 기반 손실 압축의 실용적 고려사항 및 개선 가능성은 무엇인가요?

주요 결과

DiffC는 인코더 트랜스폼 없이 하나의 조건 없는 확산 모델을 사용하여 경쟁력 있는 비트율-왜곡 성능을 달성합니다.
흐름 기반 재구성(확률 흐름 ODE)은 고비트레이트에서 선조 샘플링보다 최대 3 dB 더 나은 SNR을 제공합니다.
DiffC-F(흐름 기반)는 실험에서 ImageNet 64x64에서 HiFiC 및 BPG보다 지각 지표(FID)와 PSNR을 크게 향상시킵니다.
가우시안 데이터에 대해 주 방향으로의 수정된 노이즈 스케줄은 최적의 결정론적 인코더의 비트율-왜곡에 근접하거나 이를 능가할 수 있습니다.
이론적 결과는 Gaussian 데이터에 대해 DiffC-A*가 고비트레이트에서 R(D/2) 벤치마크에 근접하고, DiffC-F*가 고비트레이트 구간에서 DiffC-A* 대비 명시적 3 dB 이점을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.