QUICK REVIEW

[论文解读] Learned Image Compression with Mixed Transformer-CNN Architectures

Jinming Liu, Heming Sun|arXiv (Cornell University)|Mar 27, 2023

Advanced Data Compression Techniques被引用 11

一句话总结

本文提出并行 Transformer-CNN 混合（TCM）块和基于 Swin-transformer 的注意力（SWAtten）的参数高效熵模型，在 Kodak、Tecnick 和 CLIC 数据集上实现相比 VVC 的最先进的速率-失真性能。

ABSTRACT

Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.

研究动机与目标

激励将局部的 CNN 建模与非局部的 transformer 建模相结合，以提升 LIC 的 RD 性能。
设计一个高效的并行 TCM 块，将 CNN 与 transformer 特征通过可控复杂度进行融合。
开发一个带有 SWAtten 和通道压缩的逐通道熵模型，在降低参数的同时维持性能。
在多个数据集（Kodak、Tecnick、CLIC）上展示最先进的 RD 性能并分析复杂度。
提供消融研究以理解 TCM 和 SWAtten 对 RD 增益的贡献。

提出的方法

提出一个并行的 Transformer-CNN 混合（TCM）块，将特征分成 CNN 路径和 transformer 路径，通过 1x1 卷积和拼接进行融合，并使用两阶段的 Swin Transformer（窗口化和移位窗口）进行非本地建模。
在主路径残差块之后以及超先验路径中加入 TCM 块，以聚合局部与非局部信息。
引入带有参数高效 SWAtten 模块的逐通道自回归熵模型，使用通道压缩来减少熵模型的输入通道数。
将熵模型的切片数量从 10 减少到 5，以平衡速度和 RD 性能，并在 SWAtten 中将通道压缩应用到 128 通道。
以 RD 目标函数（RD 损失）进行训练，结合潜在变量 y 与 z 的熵项以及失真项（MSE 或 MS-SSIM），并使用拉格朗日乘子 λ。
提供一个带有超先验和基于上下文的细化的 RD 框架，用于估计 y 的每个切片的高斯参数。

实验结果

研究问题

RQ1在给定复杂度下，并行 Transformer-CNN 混合（TCM）块相较于仅 transformer 的 LIC 或仅 CNN 的模型，是否能提升 RD 性能？
RQ2在熵模型中，带通道压缩的参数高效 SWAtten 模块能否在不大幅增加模型规模的情况下提供 RD 增益？
RQ3在主路径和超先验路径中都应用 TCM 块在学习型图像压缩中有哪些 RD 优势？
RQ4在标准 LIC 基准（Kodak、Tecnick、CLIC）上，与 VVC（VTM-12.1）在 PSNR 和 MS-SSIM 指标下相比，所提出的方法表现如何？
RQ5减少熵切片数量和使用通道压缩对 RD 和计算效率有何影响？

主要发现

该方法在 Kodak、Tecnick 和 CLIC 数据集上实现了最先进的 RD 性能，分别比 VVC（VTM-12.1）在 BD-rate 上高出 12.30%、13.71%、11.85%。
与现有 SOTA 方法相比，在相同比特率下，大型模型在 Kodak 上实现约 0.4 dB 的 PSNR 和 0.5 dB 的 MS-SSIM 增益。
SWAtten 模块降低信息损失，在代表性 Kodak 样本中，将缩放后的像素平均绝对偏差 εs 从 0.451/0.422 降低到 0.389/0.365。
在 SWAtten 内的通道压缩策略在保持有竞争力的 BD-rate 性能的同时实现了参数和 FLOP 的减少。
一个 Transformer-CNN 混合（TCM）块在 RD 上优于仅 Transformer 或仅 CNN 的基线，证明了结合局部和非局部建模的好处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。