[论文解读] Adaptive Learned Image Compression with Graph Neural Networks
GLIC 引入具有自适应连通性的双尺度图基特征聚合,以捕捉局部与全局冗余,在 Kodak、Tecnick 与 CLIC 数据集上相较于 VTM-9.1 实现了最先进的 BD-rate 降幅。
Efficient image compression relies on modeling both local and global redundancy. Most state-of-the-art (SOTA) learned image compression (LIC) methods are based on CNNs or Transformers, which are inherently rigid. Standard CNN kernels and window-based attention mechanisms impose fixed receptive fields and static connectivity patterns, which potentially couple non-redundant pixels simply due to their proximity in Euclidean space. This rigidity limits the model's ability to adaptively capture spatially varying redundancy across the image, particularly at the global level. To overcome these limitations, we propose a content-adaptive image compression framework based on Graph Neural Networks (GNNs). Specifically, our approach constructs dual-scale graphs that enable flexible, data-driven receptive fields. Furthermore, we introduce adaptive connectivity by dynamically adjusting the number of neighbors for each node based on local content complexity. These innovations empower our Graph-based Learned Image Compression (GLIC) model to effectively model diverse redundancy patterns across images, leading to more efficient and adaptive compression. Experiments demonstrate that GLIC achieves state-of-the-art performance, achieving BD-rate reductions of 19.29%, 21.69%, and 18.71% relative to VTM-9.1 on Kodak, Tecnick, and CLIC, respectively. Code will be released at https://github.com/UnoC-727/GLIC.
研究动机与目标
- 推动在 LIC 中超越卷积神经网络/变换器固定感受野的自适应冗余建模。
- 提出带双尺度图的图基特征聚合(GFA),实现灵活的感受野。
- 引入复杂度感知的邻居名额以对每个像素分配自适应连通性。
- 开发利用 GFA 模块提升 RD 性能的 GLIC 编解码器。
- 在保持 RD 增益的同时,展示相较于现有最先进 LIC 方法的效率优势。
提出的方法
- 为每个像素构建双尺度的局部与全局候选图,以实现灵活的感受野。
- 计算逐像素的复杂度分数,并通过 RMS-G 基权重分配自适应邻居配额(quota)。
- 对余弦相似度进行逐节点阈值化以选择邻居,形成目标入度的有向图。
- 在双图上应用边条件聚合,在分阶段的 VAE 基 LIC 主干中更新特征。
- 在 Flickr2W 上端到端训练,使用标准 RD 损失,同时以 MSSSIM 和 MSE 目标作为失真。
- 分析有效感受野,并通过近线性图构建与聚合实现几乎全连通且接近线性复杂度的特征更新。

实验结果
研究问题
- RQ1LIC 模型如何在固定局部感受野之外捕捉空间变异的冗余?
- RQ2双尺度图表示是否能在图像压缩中实现灵活、内容自适应的感受野?
- RQ3复杂度感知的自适应连通性是否相较于固定连通性的 LIC 提升 RD 性能与效率?
- RQ4在标准基准(Kodak、Tecnick、CLIC)上,GLIC 相较于 VTM-9.1 和其他 LIC 方法的 RD 与效率提升是多少?
主要发现
| 方法 | 复杂度 | BD-rate (%) ↓ | Params (M) | FLOPs (T) | Enc-Lat. (s) | Dec-Lat. (s) | Peak-Mem. (G) | Kodak | Tecnick | CLIC |
|---|---|---|---|---|---|---|---|---|---|---|
| VTM-9.1 | - | - | - | - | - | - | 0.00 | 0.00 | 0.00 | |
| ELIC (CVPR’22) | 33.29 | 1.74 | 0.583 | 0.335 | 1.50 | -5.95 | -7.68 | -1.20 | ||
| MLIC++ (ICML’23W) | 116.48 | 2.64 | 0.508 | 0.547 | 2.08 | -15.14 | -17.23 | -14.41 | ||
| TCM-L (CVPR’23) | 75.89 | 3.74 | 0.647 | 0.542 | 7.73 | -13.42 | -10.93 | -9.10 | ||
| FTIC (ICLR’24) | 69.78 | 2.38 | $>$ 10 | $>$ 10 | 4.90 | -14.83 | -14.39 | -10.70 | ||
| CCA (NeurIPS’24) | 64.89 | 3.28 | 0.526 | 0.385 | 5.04 | -13.94 | -14.13 | -11.93 | ||
| WeConvene (ECCV’24) | 105.51 | 4.82 | 1.264 | 1.293 | 4.53 | -8.96 | -10.70 | -7.55 | ||
| HPCM (ICCV’25) | 68.50 | 2.00 | 0.532 | 0.498 | 5.89 | -16.13 | -17.26 | -15.02 | ||
| DCAE (CVPR’25) | 119.22 | 2.28 | 0.428 | 0.449 | 5.59 | -17.18 | -20.07 | -16.91 | ||
| LALIC (CVPR’25) | 63.24 | 2.53 | 0.779 | 0.362 | 3.89 | -15.50 | -17.71 | -15.47 | ||
| MambaIC (CVPR’25) | 157.09 | 5.56 | 1.436 | 0.669 | 20.32 | -15.13 | -15.78 | -15.73 | ||
| GLIC (Ours) | 67.20 | 2.48 | 0.617 | 0.395 | 5.46 | -19.29 | -21.69 | -18.71 |
- GLIC 相较于 VTM-9.1,在 Kodak、Tecnick、CLIC 的 BD-rate 降幅分别为 19.29%、21.69%、18.71%。
- 双尺度局部+全球图设计与自适应度预算实现了多数据集上的最优 RD 性能。
- 基于 RMS-G 的复杂度评分结合 Sobel 梯度提高了邻居配额和 RD 性能。
- GLIC 在参数量、FLOPs、解码延迟和峰值内存方面优于多项 SOTA LIC 方法,展现更佳的效率-延迟权衡。
- 消融实验表明局部图与全局图均为必要,Sobel 梯度 + RMS 池化组合带来最强结果。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。