[论文解读] Towards Image Understanding from Deep Compression without Decoding
本文表明直接在学习到的深度图像压缩的压缩表示上进行图像分类和语义分割是可行的;无需进行RGB解码即可实现,并通过联合训练进一步提升压缩质量和推理性能。
Motivated by recent work on deep neural network (DNN)-based image compression methods showing potential improvements in image quality, savings in storage, and bandwidth reduction, we propose to perform image understanding tasks such as classification and segmentation directly on the compressed representations produced by these compression methods. Since the encoders and decoders in DNN-based compression methods are neural networks with feature-maps as internal representations of the images, we directly integrate these with architectures for image understanding. This bypasses decoding of the compressed representation into RGB space and reduces computational cost. Our study shows that accuracies comparable to networks that operate on compressed RGB images can be achieved while reducing the computational complexity up to $2 imes$. Furthermore, we show that synergies are obtained by jointly training compression networks with classification networks on the compressed representations, improving image quality, classification accuracy, and segmentation performance. We find that inference from compressed representations is particularly advantageous compared to inference from compressed RGB images for aggressive compression rates.
研究动机与目标
- 理解学习压缩表示是否可以在不解码为RGB的情况下支撑图像理解任务。
- 在多个比特率点上,比较压缩表示与解码后的RGB输入在分类和分割上的性能。
- 探索压缩与推理网络的联合训练是否在重建质量与任务准确性上带来协同提升。
提出的方法
- 使用学习型卷积自编码器进行图像压缩(Theis et al., 2017),产生大小为 w/8 × h/8 × C 的压缩特征图。
- 通过舍弃早期的 RGB 专用块来匹配 28×28 的特征图,将 ResNet 的变体改造成在压缩表示上工作的 cResNet。
- 在 ImageNet(ILSVRC2012)上以 3 个工作点评估分类:0.0983、0.330、0.635 bpp,比较压缩表示输入与重建的 RGB 输入。
- 在 PASCAL VOC 2012 上以 DeepLab 风格的架构(使用膨胀卷积和 ASPP)评估语义分割,比较来自压缩表示的输入与解码的 RGB。
- 通过联合损失,将率失真权衡与分类的交叉熵(Eq. 2)结合起来同时训练压缩与推理网络。
- 在不同工作点和架构下评估计算成本(FLOPs)和性能提升。
实验结果
研究问题
- RQ1推断是否可以直接从压缩表示进行分类/分割而无需解码为 RGB?
- RQ2在不同比特率点,压缩表示的性能与解码后的输入在准确性与计算成本方面有何差异?
- RQ3压缩和推理网络的联合训练是否在感知质量(SSIM/MS-SSIM)和任务准确性方面带来协同提升?
主要发现
| bpp | 网络结构 | Top 5 准确率 [%] | Top 1 准确率 [%] | mIoU [%] |
|---|---|---|---|---|
| 0.635 | ResNet-50 | 89.96 | 71.06 | 65.75 |
| 0.635 | ResNet-50 | 88.34 | 68.26 | 62.97 |
| 0.635 | cResNet-51 | 87.85 | 67.68 | 62.86 |
| 0.635 | cResNet-39 | 87.47 | 67.17 | 61.85 |
| 0.330 | ResNet-50 | 86.25 | 65.18 | 60.75 |
| 0.330 | cResNet-51 | 85.87 | 64.78 | 61.12 |
| 0.330 | cResNet-39 | 85.46 | 64.14 | 60.78 |
| 0.0983 | ResNet-50 | 78.52 | 55.30 | 52.97 |
| 0.0983 | ResNet-71 | 79.28 | 56.23 | 54.55 |
| 0.0983 | cResNet-51 | 78.20 | 55.18 | 54.62 |
| 0.0983 | cResNet-72 | 79.02 | 55.82 | 55.78 |
- 来自压缩表示的分类在 FLOPs 相近的情况下与基于解码的分类器接近甚至相当,解码+推理的操作次数减少 1.5–2×。
- 在 0.635 bpp 的 ImageNet 上,使用 cResNet-51 的压缩表示的 top-5 精度为 87.85%,仅比基于 RGB 的 ResNet-50/ResNet-71 基线低 0.5–0.3 个百分点,取决于点。
- 在中等到高压缩率下,来自压缩表示的分割方法与解码基准相比达到相同或更优;在 0.0983 bpp 时,相对于解码的 RGB 输入,平均 IoU 提升多达 1.65 个百分点。
- 压缩与分类(以及分割)的联合训练在感知质量(SSIM/MS-SSIM)方面带来微小但显著的提升,并在固定点基线之外提高了分类/分割精度(例如在 0.0983 bpp 的情况下,分类提升约 2%,分割提升约 1.7%,相对于仅进行压缩训练)。
- 压缩+推理网络仅需少量体系结构/训练调整,在无需解码时可显著降低运行时和内存开销。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。