QUICK REVIEW

[论文解读] Real-Time Adaptive Image Compression

Oren Rippel, Lubomir Bourdev|arXiv (Cornell University)|May 16, 2017

Advanced Image Processing Techniques参考文献 20被引用 114

一句话总结

基于机器学习的自编码器用于有损图像压缩，在实现实时GPU运行的同时，文件大小比 JPEG、JPEG 2000、WebP 和 BPG 更小。

ABSTRACT

We present a machine learning-based approach to lossy image compression which outperforms all existing codecs, while running in real-time. Our algorithm typically produces files 2.5 times smaller than JPEG and JPEG 2000, 2 times smaller than WebP, and 1.7 times smaller than BPG on datasets of generic images across all quality levels. At the same time, our codec is designed to be lightweight and deployable: for example, it can encode or decode the Kodak dataset in around 10ms per image on GPU. Our architecture is an autoencoder featuring pyramidal analysis, an adaptive coding module, and regularization of the expected codelength. We also supplement our approach with adversarial training specialized towards use in a compression setting: this enables us to produce visually pleasing reconstructions for very low bitrates.

研究动机与目标

开发一个轻量级、实时的基于 ML 的图像压缩器，在压缩效率上超过传统编解码器。
通过学习表示实现自适应比特流控制以达到目标比特率。
在非常低的比特率下通过对抗性训练提升感知质量。
利用金字塔状、多尺度特征提取和自适应编码管线提高效率。

提出的方法

金字塔形的多尺度特征提取，以捕捉跨尺度的结构。
跨尺度对齐以融合跨尺度的信息。
量化、比特平面分解，以及自适应算术编码以对量化表示进行无损编码。
自适应码长正则化以将期望码长引导至目标比特率。
具备多尺度对抗训练的GAN判别器，鼓励可视觉上令人愉悦的重建。

实验结果

研究问题

RQ1一个神经压缩模型是否能够在多种比特率下超越传统编解码器，并保持实时的编码/解码速度？
RQ2如何将自适应码长正则化与比特平面算术编码结合以高效地达到目标比特率？
RQ3多尺度对抗训练是否在极低比特率下提升感知质量而不牺牲压缩性能？

主要发现

编解码器	RGB 文件大小（kb）	YCbCr 文件大小（kb）	编码时间（ms）	解码时间（ms）
本方法	21.4	17.4	8.6	9.9
JPEG	65.3	43.6	18.6	13.0
JP2	54.4	43.8	367.4	80.4
WebP	49.7	37.6	67.0	83.7

提出的基于 ML 的编解码器在 Kodak PhotoCD 和 RAiSE-1k 数据集上的各质量水平下通常比 JPEG 和 JPEG 2000 的文件小约 2.5 倍，比 WebP 小约 2 倍，比 BPG 小约 1.7 倍。
在 GTX 980 Ti GPU 上，编码/解码时间分别约为 9 ms 和 10 ms，显示出实时可行性。
在测试的速率下，方法在平均 MS-SSIM/数据集表现优于传统编解码器和现有的基于 ML 的方法。
自适应码长正则化使期望比特数向目标比特率收敛，同时保持灵活的瓶颈容量。
多尺度对抗训练通过与真值图像的统计匹配，在低比特率下产生视觉上令人愉悦的重建。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。