Skip to main content
QUICK REVIEW

[論文レビュー] Adaptive Learned Image Compression with Graph Neural Networks

Yunuo Chen, Bing He|arXiv (Cornell University)|Mar 26, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

GLICは dual-scale Graph-based Feature Aggregation with adaptive connectivity を導入し、局所およびグローバルな冗長性を捉え、Kodak、Tecnick、CLIC のBD-rateをVTM-9.1と比較して最先端へと低減させる。

ABSTRACT

Efficient image compression relies on modeling both local and global redundancy. Most state-of-the-art (SOTA) learned image compression (LIC) methods are based on CNNs or Transformers, which are inherently rigid. Standard CNN kernels and window-based attention mechanisms impose fixed receptive fields and static connectivity patterns, which potentially couple non-redundant pixels simply due to their proximity in Euclidean space. This rigidity limits the model's ability to adaptively capture spatially varying redundancy across the image, particularly at the global level. To overcome these limitations, we propose a content-adaptive image compression framework based on Graph Neural Networks (GNNs). Specifically, our approach constructs dual-scale graphs that enable flexible, data-driven receptive fields. Furthermore, we introduce adaptive connectivity by dynamically adjusting the number of neighbors for each node based on local content complexity. These innovations empower our Graph-based Learned Image Compression (GLIC) model to effectively model diverse redundancy patterns across images, leading to more efficient and adaptive compression. Experiments demonstrate that GLIC achieves state-of-the-art performance, achieving BD-rate reductions of 19.29%, 21.69%, and 18.71% relative to VTM-9.1 on Kodak, Tecnick, and CLIC, respectively. Code will be released at https://github.com/UnoC-727/GLIC.

研究の動機と目的

  • CNNs/transformersの固定受容野を超える適応的な冗長性モデリングをLICで動機づける。
  • 柔軟な受容野のためのdual-scaleグラフを用いたGraph-based Feature Aggregation (GFA) を提案。
  • 画素ごとに適応的接続性を割り当てる複雑さ認識(neighbor quota)を導入。
  • GFAブロックを活用したGLICコーデックを開発し、レート-歪み性能を改善。
  • 最先端のLIC手法と比較してRD利得を維持しつつ、効率性の利点を示す。

提案手法

  • 各ピクセルに対して局所およびグローバル候補グラフを二重スケールで構築し、柔軟な受容野を実現。
  • 各ピクセルの複雑度スコアを計算し、RMS-Gに基づく重み付けでadaptive neighbor quotas(quotas)を割り当て。
  • コサイン類似度に対するノードごとの閾値処理を実施して隣人を選択し、入力次数を目標とする有向グラフを得る。
  • デュアルグラフ上でエッジ条件付き集約を適用し、VAEベースのLIC主バックボーンを段階的に更新。
  • Flickr2Wで標準RD損失を用いてエンドツーエンドで訓練し、歪みとしてMSSSIMとMSE objectivesを使用。
  • 効果的な受容野を分析し、ほぼ線形的なグラフ構築と集約を通じてほぼ完全な接続性を示す。
Figure 2 : Overview of our method. (a) Architecture of the proposed GLIC codec. Channel widths are $C_{1},C_{2},C_{3},C_{4}$ , and the numbers of non-linear transform blocks are $L_{1},L_{2},L_{3}$ . (b) Graph-based Feature Aggregation Block used as advanced non-linear transforms. (c) Lightweight Co
Figure 2 : Overview of our method. (a) Architecture of the proposed GLIC codec. Channel widths are $C_{1},C_{2},C_{3},C_{4}$ , and the numbers of non-linear transform blocks are $L_{1},L_{2},L_{3}$ . (b) Graph-based Feature Aggregation Block used as advanced non-linear transforms. (c) Lightweight Co

実験結果

リサーチクエスチョン

  • RQ1LICモデルは固定された局所受容野を超える空間的変動する冗長性をどのように捉えられるか?
  • RQ2dual-scaleグラフ表現は画像圧縮において柔軟でコンテンツ適応型の受容野を実現できるか?
  • RQ3複雑さ認識に基づく適応的接続は固定接続 LICモデルと比較してRD性能と効率を改善するか?
  • RQ4Kodak、Tecnick、CLICといった標準ベンチマークでGLICのRDと効率性の利益はVTM-9.1および他のLIC手法と比較してどうか?

主な発見

MethodComplexityBD-rate (%) ↓Params (M)FLOPs (T)Enc-Lat. (s)Dec-Lat. (s)Peak-Mem. (G)KodakTecnickCLIC
VTM-9.1------0.000.000.00
ELIC (CVPR’22)33.291.740.5830.3351.50-5.95-7.68-1.20
MLIC++ (ICML’23W)116.482.640.5080.5472.08-15.14-17.23-14.41
TCM-L (CVPR’23)75.893.740.6470.5427.73-13.42-10.93-9.10
FTIC (ICLR’24)69.782.38$>$ 10$>$ 104.90-14.83-14.39-10.70
CCA (NeurIPS’24)64.893.280.5260.3855.04-13.94-14.13-11.93
WeConvene (ECCV’24)105.514.821.2641.2934.53-8.96-10.70-7.55
HPCM (ICCV’25)68.502.000.5320.4985.89-16.13-17.26-15.02
DCAE (CVPR’25)119.222.280.4280.4495.59-17.18-20.07-16.91
LALIC (CVPR’25)63.242.530.7790.3623.89-15.50-17.71-15.47
MambaIC (CVPR’25)157.095.561.4360.66920.32-15.13-15.78-15.73
GLIC (Ours)67.202.480.6170.3955.46-19.29-21.69-18.71
  • GLICはVTM-9.1と比較してBD-rateをKodakで19.29%、Tecnickで21.69%、CLICで18.71%低減。
  • 適応度の高いデグリ budgetingを備えたデュアルスケールの局所+グローバルグラフ設計が、複数データセットで最先端のRD性能を達成。
  • Sobel勾配を用いたRMS-Gベースの複雑さスコアリングが隣人割り当てとRD性能を改善。
  • GLICはパラメータ数、FLOPs、デコード待ち時間、ピークメモリなどの点で複数のSOTA LIC手法よりも効率・遅延のトレードオフが良好。
  • アブレーション解析により局所グラフとグローバルグラフの両方が必要であり、Sobel Gradient + RMS poolingの組み合わせが最強の結果を提供。
Figure 3 : PSNR R-D curves on the CLIC 2020 dataset.
Figure 3 : PSNR R-D curves on the CLIC 2020 dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。