[论文解读] Variable Rate Image Compression with Recurrent Neural Networks
该论文提出了一种基于卷积和反卷积LSTM循环网络的可变比特率图像压缩框架,在较低比特率下相比JPEG、WebP和JPEG2000实现了更优的主观视觉质量。该模型通过单一训练好的网络实现了渐进式、比特率自适应的压缩,在32×32缩略图上的SSIM和视觉质量表现优于标准编解码器,同时存储空间减少10%或以上。
A large fraction of Internet traffic is now driven by requests from mobile devices with relatively small screens and often stringent bandwidth requirements. Due to these factors, it has become the norm for modern graphics-heavy websites to transmit low-resolution, low-bytecount image previews (thumbnails) as part of the initial page load process to improve apparent page responsiveness. Increasing thumbnail compression beyond the capabilities of existing codecs is therefore a current research focus, as any byte savings will significantly enhance the experience of mobile device users. Toward this end, we propose a general framework for variable-rate image compression and a novel architecture based on convolutional and deconvolutional LSTM recurrent networks. Our models address the main issues that have prevented autoencoder neural networks from competing with existing image compression algorithms: (1) our networks only need to be trained once (not per-image), regardless of input image dimensions and the desired compression rate; (2) our networks are progressive, meaning that the more bits are sent, the more accurate the image reconstruction; and (3) the proposed architecture is at least as efficient as a standard purpose-trained autoencoder for a given number of bits. On a large-scale benchmark of 32$ imes$32 thumbnails, our LSTM-based approaches provide better visual quality than (headerless) JPEG, JPEG2000 and WebP, with a storage size that is reduced by 10% or more.
研究动机与目标
- 为解决基于自编码器的神经网络在图像压缩中的局限性,如固定比特率编码和在不同图像尺度上泛化能力差的问题。
- 开发一种单一、可训练的神经网络架构,能够在多种图像尺寸和目标比特率下实现可变比特率压缩。
- 提升主观视觉质量并减少低比特率缩略图压缩中常见的块效应和颜色涂抹等伪影。
- 实现渐进式重建,即更高比特率下可获得更精确的图像重建。
- 消除对手动调优启发式方法或编解码器专用预处理(如色度子采样)的依赖。
提出的方法
- 该框架采用基于卷积和反卷积LSTM层的循环自编码器结构,以建模图像块中的空间和时间依赖性。
- 编码器使用堆叠的卷积LSTM将输入图像压缩为瓶颈表示,解码器则使用反卷积LSTM进行图像重建。
- 在瓶颈层应用可微分量化层,生成离散的比特流表示,从而支持端到端反向传播训练。
- 通过调整分配给瓶颈的比特数,实现可变比特率压缩,支持重建结果的渐进式优化。
- 该架构在包含2100万张32×32缩略图的大规模数据集上进行端到端训练,实现了对多样化图像内容的泛化能力。
- 在卷积变体中应用了动态比特分配策略,优先处理高活动区域,但可能引入边界伪影。
实验结果
研究问题
- RQ1能否训练单一神经网络,在无需微调的情况下支持不同图像尺寸和目标比特率的可变比特率压缩?
- RQ2在低比特率下,基于LSTM的自编码器与JPEG和WebP等标准编解码器相比,主观视觉质量如何?
- RQ3循环架构能否有效建模空间冗余性,并在低分辨率缩略图中保留高频细节?
- RQ4与使用色度子采样的编解码器相比,LSTM模型因不采用色度子采样,在相同比特率下是否能提供更高图像质量?
- RQ5该模型能否实现渐进式重建,即随着比特分配增加,图像保真度逐步提升?
主要发现
- 在所有测试的低比特率下,(反)卷积LSTM模型的SSIM得分均高于JPEG和WebP,在等效或更低比特率下主观视觉质量提升4%–12%。
- 在0.625 bpp时,(反)卷积LSTM模型的SSIM达到或超过JPEG和WebP在更高比特率下的表现,表明其具有更优的率失真效率。
- 与JPEG和WebP相比,该模型在低比特率下显著减少了可见的块效应和颜色溢出,同时避免了过度平滑。
- 在32×32缩略图上,相同视觉质量下,该模型相比JPEG、WebP和JPEG2000将存储大小减少了10%或以上。
- 该模型在不使用色度子采样的情况下仍保持高性能,而JPEG在采用4:4:4编码时比特率会增加26%。
- 该框架支持渐进式重建:更高的比特分配可获得更优的图像重建效果,且单一模型可支持所有目标比特率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。