[论文解读] Neural Image Compression via Non-Local Attention Optimization and Improved Context Modeling
本文提出了 NLAIC,一种基于 CNN 的图像压缩变分自编码器,利用非局部注意力和改进的 3D 上下文建模来捕捉局部和全局相关性,在 Kodak 和 CLIC 数据集上达到最先进的率失真性能。
This paper proposes a novel Non-Local Attention optmization and Improved Context modeling-based image compression (NLAIC) algorithm, which is built on top of the deep nerual network (DNN)-based variational auto-encoder (VAE) structure. Our NLAIC 1) embeds non-local network operations as non-linear transforms in the encoders and decoders for both the image and the latent representation probability information (known as hyperprior) to capture both local and global correlations, 2) applies attention mechanism to generate masks that are used to weigh the features, which implicitly adapt bit allocation for feature elements based on their importance, and 3) implements the improved conditional entropy modeling of latent features using joint 3D convolutional neural network (CNN)-based autoregressive contexts and hyperpriors. Towards the practical application, additional enhancements are also introduced to speed up processing (e.g., parallel 3D CNN-based context prediction), reduce memory consumption (e.g., sparse non-local processing) and alleviate the implementation complexity (e.g., unified model for variable rates without re-training). The proposed model outperforms existing methods on Kodak and CLIC datasets with the state-of-the-art compression efficiency reported, including learned and conventional (e.g., BPG, JPEG2000, JPEG) image compression methods, for both PSNR and MS-SSIM distortion metrics.
研究动机与目标
- 通过捕捉局部和全球的图像相关性来推动改进压缩。
- 开发一个基于 VAE 的编码器/解码器,嵌入非局部注意力以在无需显式信令的情况下自适应比特分配。
- 通过联合的 3D 自回归上下文和超先验来增强熵建模,以更好地预测潜在特征。
- 提出实用的扩展,以在真实部署中降低内存和计算资源。
- 在标准基准上展示相对于学习型和传统编解码器的更优的率失真性能。
提出的方法
- 将非局部网络操作嵌入主编码/解码器与超先验编码/解码器中的非线性变换,以捕捉局部和全球相关性。
- 应用注意力机制生成掩模,隐式在特征之间自适应比特分配,无需信令开销。
- 使用基于 3D 掩蔽卷积的自回归上下文模型,与超先验联合用于潜在特征的条件熵估计。
- 引入具有多层注意力掩模的非局部注意力模块(NLAM),以引导端到端学习。
- 引入复杂度降低选项:稀疏非局部处理、并行 3D 上下文建模,以及通过质量缩放因子实现的统一变码率模型。
- 端到端训练,使用将潜在率、超先验率和失真项(MSE 或 MS-SSIM)结合的率失真目标。
实验结果
研究问题
- RQ1如何在学习型图像压缩中利用非局部相关性来提高率失真性能?
- RQ2注意力生成的隐式掩模是否能在不增加显式信令开销的情况下实现自适应比特分配?
- RQ3联合的 3D 自回归上下文与超先验是否能提升潜在特征的熵建模?
- RQ4哪些实际扩展(稀疏 NLAM、并行 3D 上下文、统一变码率模型)在几乎不损失性能的前提下提升速度和内存效率?
- RQ5在标准基准(Kodak、CLIC)上,NLAIC 相对于传统编解码器和其他学习型压缩器的表现如何?
主要发现
- NLAIC 在 Kodak 和 CLIC 数据集上在 PSNR 和 MS-SSIM 两者上均优于现有的学习型和传统编解码器。
- 在多层引入非局部注意力掩模,实现自适应处理,而无需显式的比特分配信令。
- 联合使用自回归的时空通道邻居和超先验的 3D 掩蔽卷积上下文模型,为熵编码产生更准确的条件统计。
- 提出的实用扩展(稀疏 NLAM、并行 3D 上下文建模、统一变码率模型)在显著降低内存和计算的同时,几乎不损失编码效率。
- 相对若干基线的 BD-Rate 增益:相比 JPEG 基线 64.39%、相比 Minnen2018 59.84%、相比 BPG (YCbCr 4:4:4) HM 59.46%、相比 Ballé2018 56.19%、相比 JPEG2000 38.02%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。