[论文解读] Variational image compression with a scale hyperprior
一个端到端的变分自编码器用于图像压缩,它引入一个尺度超先验来建模潜在依赖,在 ANN 基方法中实现了最先进的 MS-SSIM 和较强的 PSNR 性能。
We describe an end-to-end trainable model for image compression based on variational autoencoders. The model incorporates a hyperprior to effectively capture spatial dependencies in the latent representation. This hyperprior relates to side information, a concept universal to virtually all modern image codecs, but largely unexplored in image compression using artificial neural networks (ANNs). Unlike existing autoencoder compression methods, our model trains a complex prior jointly with the underlying autoencoder. We demonstrate that this model leads to state-of-the-art image compression when measuring visual quality using the popular MS-SSIM index, and yields rate-distortion performance surpassing published ANN-based methods when evaluated using a more traditional metric based on squared error (PSNR). Furthermore, we provide a qualitative comparison of models trained for different distortion metrics.
研究动机与目标
- 使用超先验来捕获潜在编码中的空间相关性,开发一个端到端的变分图像压缩模型。
- 将超先验与自编码器联合训练,以最小化速率–失真损失。
- 在 PSNR 和 MS-SSIM 上评估性能,与现有基于 ANN 的方法和传统编解码器进行比较。
- 分析以不同失真度量进行训练对重构质量和伪影的影响。
提出的方法
- 使用分析变换 ga(x; φg) 产生潜在 y,和合成变换 gs(ˆy; θg) 重构 x。
- 通过用 z 建模潜在尺度并通过 hs 预测 ˜σ 来引入尺度超先验,以层次化地条件化先验 p˜y|˜z。
- 将 q(˜y, ˜z | x) 模型化为均匀变量的乘积,以实现可处理的推断和反向传播。
- 使用以可微的代理替代量化、加入加性均匀噪声进行训练,并优化基于 KL 散度的目标函数,包含速率和失真项。
- 对先验 p˜y|ψ 和 p˜z|ψ 使用非参数的、完全分解的密度模型,以实现端到端学习。
- 通过算术编码编码 ˆz(侧信息),并在解码端使用它来检索 ˆσ 并准确解码 ˆy。
实验结果
研究问题
- RQ1相较于分解先验,潜在尺度的超先验是否能改善速率–失真性能?
- RQ2对潜在先验进行空间变化尺度的条件化如何影响压缩效率?
- RQ3在为不同失真度量(PSNR vs MS-SSIM)进行优化时,对视觉质量和伪影有何影响?
- RQ4需要多少侧信息 (ˆz) 才能获得超先验的好处?
主要发现
- 该超先验模型在 Kodak 数据集上实现了最先进的 MS-SSIM,超越传统编解码器和先前的 ANN 方法在该指标上的表现。
- 在以平方误差优化时,分解先验模型给出强烈的 PSNR 性能,并接近或超越某些传统编解码器和 ANN 方法,而超先验提供了额外的增益。
- 超先验的侧信息仍然是总比特率的一小部分(即使在高码率下也远低于 0.1 bpp),但带来显著的速率–失真改进。
- 用 MS-SSIM 损失训练同一模型所产生的伪影模式与用平方误差训练不同,突显了不同失真度量之间的定性差异。
- 在速率–失真权衡中,超先验始终优于分解先验模型,强调将先验与边缘分布相匹配的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。