[논문 리뷰] A Residual Diffusion Model for High Perceptual Quality Codec Augmentation
DIRAC은 수신 측 확산 잔차 모델로 기본 이미지 코덱을 보강하여 비트율-왜곡-인지(tradeoff)를 부드럽게 탐색하고, 경쟁력 있는 충실도와 함께 높은 인지 품질을 달성하며 매우 빠른 샘플링(최소 20단계)도 가능하게 한다.
Diffusion probabilistic models have recently achieved remarkable success in generating high quality image and video data. In this work, we build on this class of generative models and introduce a method for lossy compression of high resolution images. The resulting codec, which we call DIffuson-based Residual Augmentation Codec (DIRAC), is the first neural codec to allow smooth traversal of the rate-distortion-perception tradeoff at test time, while obtaining competitive performance with GAN-based methods in perceptual quality. Furthermore, while sampling from diffusion probabilistic models is notoriously expensive, we show that in the compression setting the number of steps can be drastically reduced.
연구 동기 및 목표
- 이미지 압축에서 비트율-왜곡-인지의 트레이드오프에 대한 동적 제어를 동기 부여하고 가능하게 한다.
- 확산 모델을 활용하여 충실도는 유지하면서 지각 품질을 향상시킨다.
- 신경 기반 코드와 전통적인 코드 모두에서 작동할 수 있는 수신 측 보강을 제공한다.
- 고해상도 이미지에 대해 확산 샘플링 비용을 실용적인 수준으로 감소시킨다.
제안 방법
- 기본 이미지 코덱에 x - x̃(재구성 잔차)를 예측하는 잔차 확산 모델을 결합한다.
- 기본 재구성에 조건화된 잔차를 예측하도록 확산 모델을 학습시키고, 잔차 예측 오차와 LPIPS 기반 지각 왜곡을 포함하는 손실을 최적화한다.
- DDIM 스타일 샘플링을 채용하여 유연하고 감소된 스텝 생성을 가능하게 하며, 지연 시작 샘플링으로 최대 100단계 이하(예: 20)까지 가능하도록 한다.
- 비트율 의존 임계치를 도입하여 중간 잔차 예측을 비트율별 잔차 분포에 따라 자른다.
- 왜곡과 인지의 타협을 위해 확산 과정을 어떤 시점에서든 중단할 수 있도록 테스트 시 제어를 가능하게 한다.
- 신경 기반 기본 코덱을 사용하는 생성적 압축과 전통적 코덱(JPEG, VTM)의 향상을 모두 평가한다.

실험 결과
연구 질문
- RQ1수신 측 확산 기반 향상기가 테스트 시 비트율-왜곡-인지의 제어 가능한 내비게이션을 제공할 수 있는가?
- RQ2잔차 기반 확산 모델링이 PSNR 및 인지 지표(FID/256, LPIPS) 측면에서 엔드-투-엔드 지각 최적화와 어떻게 비교되는가?
- RQ3실용적인 속도 향상을 제공하면서 품질을 희생하지 않는 샘플링 전략(스텝 수, 지연 시작, 비율 의존 임계)은 무엇인가?
- RQ4이 방법이 JPEG 및 VTM과 같은 전통적 코덱의 지각 품질을 충실도에 해를 주지 않으면서 향상시킬 수 있는가?
- RQ5DIRAC를 사용할 때 데이터셋 간 트레이드오프 동작은 어떻게 나타나는가(예: CLIC2020, Kodak, ImageNet-val1k)?
주요 결과
- DIRAC는 높은 충실도와 높은 지각 품질 사이를 매끄럽게 탐색하여, 비슷한 충실도에서 최신 지각 기준선과 일치하거나 이를 능가한다.
- DIRAC-100(100 확산 스텝)은 HiFiC와 경쟁력 있는 지각 품질을 달성하는 동시에 테스트 데이터셋에서 더 좋은 PSNR을 제공한다.
- 특히 JPEG의 경우 DIRAC가 PSNR 손실 없이 FID/256를 최대 78% 향상시킬 수 있다(향상된 baseline JPEG 대비).
- DIRAC-1(단일 샘플링 스텝)은 기본 코덱의 충실도(PSNR)에 가깝고 지각 향상을 제공하며, 여러 향상 기준선보다 지각 지표에서 우수하다.
- 샘플링 효율성 개선: 매우 지연 시작 샘플링(대략 t가 20인 경우)은 성능 손실 없이 약 80% 적은 스텝 수를 제공하고; 비율 의존 임계는 PSNR을 추가로 향상시키되 FID/256은 악화시키지 않는다.
- DIRAC는 고해상도 데이터에서 전통적 코덱(VTM, JPEG)을 향상시켜 상당한 지각 이득(FID/256)을 달성하되 PSNR 손실은 미미하거나 없을 수 있다.
- 이 접근법은 왜곡-인지 트레이드오프를 테스트 시 제어할 수 있게 하며, 단일 모델이 다양한 작동 포인트를 지원한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.