[论文解读] Lossy Compression with Gaussian Diffusion
DiffC 使用无条件扩散模型和高斯噪声来传递损坏像素以进行有损压缩,在无需编码器变换的情况下实现有竞争力的码率-失真与真实感,并且在某些设定下在 ImageNet 64x64 上超过 HiFiC。它支持渐进解码,并提供码率–失真理论和基于流的重构优势。
We consider a novel lossy compression approach based on unconditional diffusion generative models, which we call DiffC. Unlike modern compression schemes which rely on transform coding and quantization to restrict the transmitted information, DiffC relies on the efficient communication of pixels corrupted by Gaussian noise. We implement a proof of concept and find that it works surprisingly well despite the lack of an encoder transform, outperforming the state-of-the-art generative compression method HiFiC on ImageNet 64x64. DiffC only uses a single model to encode and denoise corrupted pixels at arbitrary bitrates. The approach further provides support for progressive coding, that is, decoding from partial bit streams. We perform a rate-distortion analysis to gain a deeper understanding of its performance, providing analytical results for multivariate Gaussian data as well as theoretic bounds for general distributions. Furthermore, we prove that a flow-based reconstruction achieves a 3 dB gain over ancestral sampling at high bitrates.
研究动机与目标
- 基于无条件扩散模型(DiffC)探索一种新的有损压缩方法。
- 评估重建与数据边缘分布相匹配的真实感约束。
- 分析高斯分布和一般分布的码率–失真行为。
- 在 ImageNet 64x64 上将 DiffC 与最先进的生成功能编解码器和传统方法进行比较。
- 提供理论见解包括基于流的重构优势。
提出的方法
- 通过 Z_t = sqrt(1−σ_t^2) X + σ_t U,其中 U ~ N(0,I),传输数据的损坏版本。
- 使用扩散模型反转该过程,并通过祖先采样或概率流 ODE(n diffusion vs. flow reconstructions) 从 Z_t 重构 X。
- 通过反信道编码对精确高斯样本进行编码,并对编码成本给出上界。
- 推导高斯分布和一般分布的码率–失真分析,包括噪声日程和优化变体(DiffC-A*, DiffC-F*)。
- 提供理论结果,显示在高比特率下基于流的重构相比祖先采样有3 dB 的增益。
- 在 ImageNet 64x64 上使用扩散模型实现(VDM)进行实验,比较 DiffC 与 HiFiC 和 BPG,包括渐进编码和 PSNR/FID 指标。
实验结果
研究问题
- RQ1无条件扩散模型与高斯噪声是否能够在不同比特率下实现逼真的重建而无需编码器变换?
- RQ2在完美真实感约束下,与确定性编码器相比,DiffC 的码率–失真表现如何?
- RQ3对于高斯与一般数据分布,DiffC 的理论码率–失真特性如何,基于流的重构与祖先采样相比有何差异?
- RQ4DiffC 是否提供渐进编码能力,其在 ImageNet 64x64 上与 HiFiC 和 BPG 等基线的重建对比如何?
- RQ5扩散基有损压缩的实际考量与潜在改进是什么(例如噪声日程、流 vs 祖先采样)?
主要发现
- DiffC 使用单一无条件扩散模型在没有编码器变换的情况下实现了有竞争力的码率–失真性能。
- 基于流的重构(概率流 ODE)在高比特率下比祖先采样产生高达 3 dB 的更好 SNR。
- DiffC-F(基于流的)在 ImageNet 64x64 的实验中显著改善了感知指标(FID)和 PSNR,相较于 HiFiC 和 BPG。
- 对于高斯数据,沿主方向修改的噪声日程可以匹配或接近最佳确定性编码器的码率–失真。
- 理论结果表明,在高比特率下 DiffC-A* 靠近高斯数据的 R(D/2) 基准,而 DiffC-F* 在高比特率区间相对于 DiffC-A* 提供明确的 3 dB 增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。