[논문 리뷰] Learned Image Compression with Mixed Transformer-CNN Architectures
논문은 병렬 Transformer-CNN Mixture (TCM) 블록과 엔트로피 모델용 매개변수 효율적인 Swin-transformer 기반 주의력(SWAtten)을 도입하여 Kodak, Tecnick, CLIC 데이터셋에서 VVC와 비교하여 최첨단 RD 성능을 달성한다.
Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.
연구 동기 및 목표
- 로컬 CNN 모델링과 비 local 트랜스포머 모델링을 결합하여 LIC RD 성능을 향상시키려는 동기 부여.
- CNN과 트랜스포머 특징을 제어 가능한 복잡도로 융합하는 효율적인 병렬 TCM 블록 설계.
- 성능을 유지하면서 매개변수를 줄이기 위해 SWAtten 모듈과 채널 압축을 활용한 채널 단위 엔트로피 모델 개발.
- 다양한 데이터셋(Kodak, Tecnick, CLIC)에서 최첨단 RD 성능을 입증하고 복잡성 분석.
- TCM 및 SWAtten의 RD 이점 이해를 위한 에이블레이션 제공.
제안 방법
- CNN 및 트랜스포머 경로로 특징을 분할하고 1x1 컨볼루션과 연결(concatenation)으로 융합하며 비-local 모델링을 위한 두 단계 Swin Transformer(윈도우드 및 시프트 윈도우)를 사용하는 병렬 Transformer-CNN Mixture (TCM) 블록 제안.
- 주 경로 잔차 블록 뒤 및 하이프리-prior 경로 내에서 TCM 블록을 도입하여 로컬 및 비로컬 정보를 집계.
- 입력 채널 수를 엔트로피 모델에서 줄이는 채널 압축을 사용하여 매개변수 효율적인 SWAtten 모듈과 함께 채널 단위 자동회귀 엔트로피 모델 도입.
- RD 성능과 속도의 균형을 맞추기 위해 엔트로피 모델의 슬라이스 수를 10에서 5로 축소하고 SWAtten에서 채널 압축을 128 채널에 적용.
- 잠재 변수 y 및 z 엔트로피 용어와 변형 손실 항(MSE 또는 MS-SSIM)과 랄라존 배수 λ를 결합한 RD 손실로 학습.
- 하이퍼 프라이어 및 컨텍스트 기반 정제를 통해 y의 각 슬라이스에 대한 가우시안 파라미터를 추정하는 RD 프레임워크를 제공.
실험 결과
연구 질문
- RQ1병렬 Transformer-CNN Mixture (TCM) 블록이 주된 복잡도에서 트랜스포머 전용 또는 CNN 전용 LIC 모델과 비교하여 RD 성능을 향상시키는가?
- RQ2채널 압축을 갖춘 매개변수 효율적 SWAtten 모듈이 모델 크기를 크게 늘리지 않으면서 엔트로피 모델에서 RD 이득을 제공하는가?
- RQ3학습된 이미지 압축에서 주 경로와 하이프리-prior 경로 모두에 TCM 블록을 적용하는 것이 RD에 어떤 이점을 주는가?
- RQ4제안된 접근 방식이 표준 LIC 벤치마크(Kodak, Tecnick, CLIC)에서 VVC(VTM-12.1)와 비교하여 PSNR 및 MS-SSIM 측면에서 어떤 성능을 보이는가?
- RQ5엔트로피 슬라이스 수 축소 및 채널 압축 사용이 RD 및 계산 효율성에 어떤 영향을 미치는가?
주요 결과
- 본 방법은 Kodak, Tecnick, CLIC 데이터셋에서 최첨단 RD 성능을 달성하여 VVC (VTM-12.1)보다 각각 12.30%, 13.71%, 11.85% BD-레이트를 상회했다.
- SOTA 방법과 비교할 때 대형 모델은 Kodak에서 같은 비트레이트에서 최대 약 0.4 dB PSNR 및 0.5 dB MS-SSIM 이득을 제공한다.
- SWAtten 모듈은 정보 손실을 줄여 대표적인 Kodak 샘플에서 εs를 0.451/0.422에서 0.389/0.365로 축소했다.
- SWAtten 내 채널 압축 전략은 매개변수 및 FLOP 감소를 가져오면서 BD-레이트 성능은 경쟁력을 유지한다.
- Transformer-CNN Mixture (TCM) 블록은 Transformer-전용 및 CNN-전용 기준선 모두에서 RD 이득을 제공하여 로컬 및 비로컬 모델링의 결합 이점을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.