QUICK REVIEW

[论文解读] Non-local Attention Optimized Deep Image Compression

Haojie Liu, Tong Chen|arXiv (Cornell University)|Apr 22, 2019

Advanced Data Compression Techniques参考文献 26被引用 75

一句话总结

引入一种非局部注意力框架（NLAIC）用于基于变分自编码器的图像压缩，联合建模超先验和潜在特征并采用非局部注意力以改善熵编码和比特分配；在 Kodak 数据集上实现了针对 MS-SSIM 和 PSNR 的业界领先结果。

ABSTRACT

This paper proposes a novel Non-Local Attention Optimized Deep Image Compression (NLAIC) framework, which is built on top of the popular variational auto-encoder (VAE) structure. Our NLAIC framework embeds non-local operations in the encoders and decoders for both image and latent feature probability information (known as hyperprior) to capture both local and global correlations, and apply attention mechanism to generate masks that are used to weigh the features for the image and hyperprior, which implicitly adapt bit allocation for different features based on their importance. Furthermore, both hyperpriors and spatial-channel neighbors of the latent features are used to improve entropy coding. The proposed model outperforms the existing methods on Kodak dataset, including learned (e.g., Balle2019, Balle2018) and conventional (e.g., BPG, JPEG2000, JPEG) image compression methods, for both PSNR and MS-SSIM distortion metrics.

研究动机与目标

通过在图像和潜在特征域中同时捕获局部和全局相关性，推动改进的图像压缩。
开发一种基于 VAE 的架构，嵌入非局部注意力以生成隐式重要性掩码用于自适应比特分配。
通过使用超先验以及潜在特征中的空间-通道上下文来增强熵建模。
在标准基准上展示相对于学习编码器和传统编解码器的业界领先的速率失真性能。

提出的方法

在主编码器/解码器和超先验编码器/解码器中嵌入非局部注意力模块（NLAM），以捕捉局部和全局像素/特征相关性。
通过一系列非局部模块和残差块级联生成注意力掩码，以在不增加信号开销的情况下实现隐式特征重要性。
使用一层掩码三维卷积神经网络来建模来自空间-通道邻居以及超先验的条件统计，以进行熵编码。
提供两种变体：NLAIC 基线（仅超先验）和 NLAIC 联合（超先验加自回归邻居用于上下文建模）。
端到端训练，使用覆盖一系列比特率的速率-失真优化，目标为 MS-SSIM 或 MSE 损失。

实验结果

研究问题

RQ1非局部注意力是否能够在学习到的图像压缩中改进潜在表示和熵编码效率？
RQ2联合上下文建模（超先验加自回归邻居）在速率-失真方面是否优于仅使用超先验的上下文建模？
RQ3注意力掩码对跨失真（MS-SSIM 与 PSNR）的比特分配与感知质量有何影响？
RQ4在标准基准上，NLAIC 与 JPEG、JPEG2000、BPG 及其他学习型编解码器相比如何？

主要发现

NLAIC 在联合上下文建模下，在 Kodak 数据集上同时在 MS-SSIM 和 PSNR 上实现了业界领先的速率-失真性能。
联合模型相对于 JPEG 的 BD-Rate 降低了 64.39%（对于 JPEG420）和 12.26%（对于 BPG444），为论文中的平均结果。
消融研究表明移除 NLAM 组件会降低 PSNR；在主编码器/解码器中保持 NLAM 掩码可获得最佳性能。
NLAIC 基线优于若干现有方法，而 NLAIC 联合提供更大的性能提升。
超先验对压缩效率有贡献，其相对比特贡献随目标比特率和损失函数而异。
该方法在 BSD500 上达到更好的主观质量，并相对于基线在客观指标上具竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。