QUICK REVIEW

[논문 리뷰] Adaptive Learned Image Compression with Graph Neural Networks

Yunuo Chen, Bing He|arXiv (Cornell University)|2026. 03. 26.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

GLIC는 지역 및 전역 중복을 포착하기 위하여 adaptive 연결성을 갖춘 이중 규모 그래프 기반 특징 집계(Graph-based Feature Aggregation, GFA)를 도입하여 Kodak, Tecnick, CLIC 데이터셋에서 VTM-9.1에 비해 BD-rate 감소를 달성했습니다.

ABSTRACT

Efficient image compression relies on modeling both local and global redundancy. Most state-of-the-art (SOTA) learned image compression (LIC) methods are based on CNNs or Transformers, which are inherently rigid. Standard CNN kernels and window-based attention mechanisms impose fixed receptive fields and static connectivity patterns, which potentially couple non-redundant pixels simply due to their proximity in Euclidean space. This rigidity limits the model's ability to adaptively capture spatially varying redundancy across the image, particularly at the global level. To overcome these limitations, we propose a content-adaptive image compression framework based on Graph Neural Networks (GNNs). Specifically, our approach constructs dual-scale graphs that enable flexible, data-driven receptive fields. Furthermore, we introduce adaptive connectivity by dynamically adjusting the number of neighbors for each node based on local content complexity. These innovations empower our Graph-based Learned Image Compression (GLIC) model to effectively model diverse redundancy patterns across images, leading to more efficient and adaptive compression. Experiments demonstrate that GLIC achieves state-of-the-art performance, achieving BD-rate reductions of 19.29%, 21.69%, and 18.71% relative to VTM-9.1 on Kodak, Tecnick, and CLIC, respectively. Code will be released at https://github.com/UnoC-727/GLIC.

연구 동기 및 목표

LIC에서 CNN/트랜스포머의 고정된 수용 영역을 넘어서는 적응적 중복 모델링의 필요성을 제시한다.
유연한 수용 영역을 위한 이중 규모 그래프를 갖춘 Graph-based Feature Aggregation (GFA)를 제안한다.
픽셀별로 적응적 연결성을 할당하기 위한 복잡도 인식 이웃 할당(quota)을 도입한다.
GFA 블록을 활용해 개선된 rate-distortion 성능을 보이는 GLIC 코덱을 개발한다.
RD 이득을 유지하면서 최신 LIC 방법에 비해 효율성을 입증한다.

제안 방법

픽셀당 유연한 수용 영역을 구현하기 위해 이중 규모의 로컬+글로벌 후보 그래프를 구성한다.
픽셀별 복잡도 점수를 계산하고 RMS-G 기반 가중치를 통해 adaptive neighbor quotas(쿼터)를 할당한다.
코사인 유사도에 대한 노드별 임계값 설정으로 이웃을 선택하여 목표 차수의 방향 그래프를 얻는다.
이중 그래프에 대한 엣지 조건화 집계를 적용하여 계단식 VAE 기반 LIC 백본에서 특징을 업데이트한다.
표준 RD 손실로 Flickr2W에서 엔드투엔드로 학습하며 변형으로 MSSSIM과 MSE 목적함수를 사용한다.
유효 수용 필드를 분석하고 근사 선형 그래프 구성 및 집계를 통해 거의 선형 같은 복잡도로 거의 전체 연결성을 보임을 보인다.

Figure 2 : Overview of our method. (a) Architecture of the proposed GLIC codec. Channel widths are $C_{1},C_{2},C_{3},C_{4}$ , and the numbers of non-linear transform blocks are $L_{1},L_{2},L_{3}$ . (b) Graph-based Feature Aggregation Block used as advanced non-linear transforms. (c) Lightweight Co

실험 결과

연구 질문

RQ1LIC 모델이 고정된 로컬 수용 영역을 넘어서 공간적으로 변화하는 중복을 어떻게 포착할 수 있는가?
RQ2이중 규모 그래프 표현이 영상 압축에서 유연하고 콘텐츠에 적응하는 수용 영역을 가능하게 하는가?
RQ3복잡도 인식 적응 연결성이 고정 연결 LIC 모델보다 RD 성능 및 효율성을 개선하는가?
RQ4Kodak, Tecnick, CLIC 같은 표준 벤치마크에서 GLIC의 RD 및 효율성은 VTM-9.1 및 다른 LIC 방법과 비교하여 어떠한가?

주요 결과

방법	복잡성	BD-rate (%) ↓	매개변수 (M)	FLOPs (T)	Enc-Lat. (s)	Dec-Lat. (s)	Peak-Mem. (G)	Kodak	Tecnick
VTM-9.1	-	-	-	-	-	-	0.00	0.00	0.00
ELIC (CVPR’22)	33.29	1.74	0.583	0.335	1.50	-5.95	-7.68	-1.20
MLIC++ (ICML’23W)	116.48	2.64	0.508	0.547	2.08	-15.14	-17.23	-14.41
TCM-L (CVPR’23)	75.89	3.74	0.647	0.542	7.73	-13.42	-10.93	-9.10
FTIC (ICLR’24)	69.78	2.38	$>$ 10	$>$ 10	4.90	-14.83	-14.39	-10.70
CCA (NeurIPS’24)	64.89	3.28	0.526	0.385	5.04	-13.94	-14.13	-11.93
WeConvene (ECCV’24)	105.51	4.82	1.264	1.293	4.53	-8.96	-10.70	-7.55
HPCM (ICCV’25)	68.50	2.00	0.532	0.498	5.89	-16.13	-17.26	-15.02
DCAE (CVPR’25)	119.22	2.28	0.428	0.449	5.59	-17.18	-20.07	-16.91
LALIC (CVPR’25)	63.24	2.53	0.779	0.362	3.89	-15.50	-17.71	-15.47
MambaIC (CVPR’25)	157.09	5.56	1.436	0.669	20.32	-15.13	-15.78	-15.73
GLIC (Ours)	67.20	2.48	0.617	0.395	5.46	-19.29	-21.69	-18.71

GLIC는 VTM-9.1에 비해 Kodak에서 19.29%, Tecnick에서 21.69%, CLIC에서 18.71%의 BD-rate 감소를 달성한다.
적응 차수 예산 할당을 갖춘 이중 규모의 로컬+글로벌 그래프 설계가 여러 데이터셋에서 최첨단 RD 성능을 달성한다.
Sobel 그래디언트와 함께 RMS-G 기반 복잡도 점수화가 이웃 쿼터 및 RD 성능을 향상시킨다.
GLIC는 여러 SOTA LIC 방법에 비해 파라미터 수, FLOPs, 디코딩 지연, 피크 메모리 측면에서 더 나은 효율-지연 트레이드오프를 제공한다.
소거 연구에서 로컬 그래프와 글로벌 그래프 모두 필요함이 나타나며, Sobel Gradient + RMS 풀링 조합이 가장 강력한 결과를 낸다.

Figure 3 : PSNR R-D curves on the CLIC 2020 dataset.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.