QUICK REVIEW

[论文解读] Improved Lossy Image Compression with Priming and Spatially Adaptive Bit Rates for Recurrent Networks

Nick Johnston, Damien Vincent|arXiv (Cornell University)|Mar 29, 2017

Advanced Data Compression Techniques参考文献 18被引用 27

一句话总结

该论文提出了一种基于循环神经网络的图像压缩方法，通过三项关键创新显著提升了有损压缩性能：基于SSIM的感知加权训练损失、用于增强空间上下文的隐藏状态预热机制，以及用于动态比特率分配的逐区域自适应比特率（SABR）。该方法在Kodak和Tecnick数据集上实现了最先进的MS-SSIM性能，优于BPG、WebP、JPEG2000和JPEG，在相同质量水平下比特率最高可降低25%。

ABSTRACT

We propose a method for lossy image compression based on recurrent, convolutional neural networks that outperforms BPG (4:2:0 ), WebP, JPEG2000, and JPEG as measured by MS-SSIM. We introduce three improvements over previous research that lead to this state-of-the-art result. First, we show that training with a pixel-wise loss weighted by SSIM increases reconstruction quality according to several metrics. Second, we modify the recurrent architecture to improve spatial diffusion, which allows the network to more effectively capture and propagate image information through the network's hidden state. Finally, in addition to lossless entropy coding, we use a spatially adaptive bit allocation algorithm to more efficiently use the limited number of bits to encode visually complex image regions. We evaluate our method on the Kodak and Tecnick image sets and compare against standard codecs as well recently published methods based on deep neural networks.

研究动机与目标

超越现有标准编解码器和基于神经网络的方法，进一步提升有损图像压缩性能。
解决神经图像压缩中固定比特率和非自适应比特分配的局限性。
通过在训练目标中引入感知相似性（SSIM）来提升重建质量。
通过隐藏状态预热在循环解码器中增强空间上下文，且计算开销可忽略不计。
通过基于局部复杂度的区域自适应比特率分配，实现高效的比特分配。

提出的方法

采用循环自编码器架构，每次迭代对原始图像与前次重建结果之间的残差进行编码。
应用感知加权的L1损失，该损失按结构相似性（SSIM）进行缩放，以在训练期间优先关注视觉上重要的图像区域。
通过在生成二进制码之前运行多轮编码器-解码器迭代，引入隐藏状态预热，从而丰富循环状态中的初始上下文。
实现逐区域自适应比特率（SABR），通过学习的高程图动态分配更多比特给复杂图像区域，更少比特给简单区域。
将SABR与熵编码结合，进一步提升率失真效率，在不损失质量的前提下降低整体比特率。
通过添加均匀噪声的可微量化近似方法，实现对非可微量化步骤的端到端训练。

实验结果

研究问题

RQ1基于SSIM的感知加权训练损失是否能提升神经图像压缩中的图像重建质量？
RQ2在循环自编码器架构中引入隐藏状态预热是否能增强空间上下文并提升重建保真度？
RQ3逐区域自适应比特率分配是否能在保持复杂图像区域视觉质量的同时降低整体比特率？
RQ4与BPG、WebP和JPEG2000等最先进的编解码器相比，预热、SSIM加权损失和SABR的综合效果在率失真性能上表现如何？
RQ5所提方法在MS-SSIM和PSNR指标上相较于以往基于神经网络的压缩模型，优势程度如何？

主要发现

在Kodak数据集上，该方法在相同MS-SSIM水平下相比JPEG实现了25.19%的比特率降低，该结果通过Bjøntegaard Delta测量得出。
在Kodak数据集上，该方法在相同MS-SSIM质量下相比BPG 4:2:0比特率节省达17.36%。
结合SABR与预热机制后，该模型在更低比特率下实现了45.65的MS-SSIM得分，优于BPG 4:4:4（得分为44.10 MS-SSIM）。
预热与SABR的结合使MS-SSIM率失真曲线超越了以往基于神经网络的方法，包括Theis等人和Toderici等人提出的方法。
在相同PSNR水平下，该方法相比Toderici等人[21]的模型比特率降低了44.98%，展现出显著的效率提升。
在Tecnick数据集上，该方法在相同MS-SSIM质量下相比WebP比特率降低24.28%，表明其在不同数据集上具有出色的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。