QUICK REVIEW

[논문 리뷰] Learned Image Compression with Mixed Transformer-CNN Architectures

Jinming Liu, Heming Sun|arXiv (Cornell University)|2023. 03. 27.

Advanced Data Compression Techniques인용 수 11

한 줄 요약

논문은 병렬 Transformer-CNN Mixture (TCM) 블록과 엔트로피 모델용 매개변수 효율적인 Swin-transformer 기반 주의력(SWAtten)을 도입하여 Kodak, Tecnick, CLIC 데이터셋에서 VVC와 비교하여 최첨단 RD 성능을 달성한다.

ABSTRACT

Learned image compression (LIC) methods have exhibited promising progress and superior rate-distortion performance compared with classical image compression standards. Most existing LIC methods are Convolutional Neural Networks-based (CNN-based) or Transformer-based, which have different advantages. Exploiting both advantages is a point worth exploring, which has two challenges: 1) how to effectively fuse the two methods? 2) how to achieve higher performance with a suitable complexity? In this paper, we propose an efficient parallel Transformer-CNN Mixture (TCM) block with a controllable complexity to incorporate the local modeling ability of CNN and the non-local modeling ability of transformers to improve the overall architecture of image compression models. Besides, inspired by the recent progress of entropy estimation models and attention modules, we propose a channel-wise entropy model with parameter-efficient swin-transformer-based attention (SWAtten) modules by using channel squeezing. Experimental results demonstrate our proposed method achieves state-of-the-art rate-distortion performances on three different resolution datasets (i.e., Kodak, Tecnick, CLIC Professional Validation) compared to existing LIC methods. The code is at https://github.com/jmliu206/LIC_TCM.

연구 동기 및 목표

로컬 CNN 모델링과 비 local 트랜스포머 모델링을 결합하여 LIC RD 성능을 향상시키려는 동기 부여.
CNN과 트랜스포머 특징을 제어 가능한 복잡도로 융합하는 효율적인 병렬 TCM 블록 설계.
성능을 유지하면서 매개변수를 줄이기 위해 SWAtten 모듈과 채널 압축을 활용한 채널 단위 엔트로피 모델 개발.
다양한 데이터셋(Kodak, Tecnick, CLIC)에서 최첨단 RD 성능을 입증하고 복잡성 분석.
TCM 및 SWAtten의 RD 이점 이해를 위한 에이블레이션 제공.

제안 방법

CNN 및 트랜스포머 경로로 특징을 분할하고 1x1 컨볼루션과 연결(concatenation)으로 융합하며 비-local 모델링을 위한 두 단계 Swin Transformer(윈도우드 및 시프트 윈도우)를 사용하는 병렬 Transformer-CNN Mixture (TCM) 블록 제안.
주 경로 잔차 블록 뒤 및 하이프리-prior 경로 내에서 TCM 블록을 도입하여 로컬 및 비로컬 정보를 집계.
입력 채널 수를 엔트로피 모델에서 줄이는 채널 압축을 사용하여 매개변수 효율적인 SWAtten 모듈과 함께 채널 단위 자동회귀 엔트로피 모델 도입.
RD 성능과 속도의 균형을 맞추기 위해 엔트로피 모델의 슬라이스 수를 10에서 5로 축소하고 SWAtten에서 채널 압축을 128 채널에 적용.
잠재 변수 y 및 z 엔트로피 용어와 변형 손실 항(MSE 또는 MS-SSIM)과 랄라존 배수 λ를 결합한 RD 손실로 학습.
하이퍼 프라이어 및 컨텍스트 기반 정제를 통해 y의 각 슬라이스에 대한 가우시안 파라미터를 추정하는 RD 프레임워크를 제공.

실험 결과

연구 질문

RQ1병렬 Transformer-CNN Mixture (TCM) 블록이 주된 복잡도에서 트랜스포머 전용 또는 CNN 전용 LIC 모델과 비교하여 RD 성능을 향상시키는가?
RQ2채널 압축을 갖춘 매개변수 효율적 SWAtten 모듈이 모델 크기를 크게 늘리지 않으면서 엔트로피 모델에서 RD 이득을 제공하는가?
RQ3학습된 이미지 압축에서 주 경로와 하이프리-prior 경로 모두에 TCM 블록을 적용하는 것이 RD에 어떤 이점을 주는가?
RQ4제안된 접근 방식이 표준 LIC 벤치마크(Kodak, Tecnick, CLIC)에서 VVC(VTM-12.1)와 비교하여 PSNR 및 MS-SSIM 측면에서 어떤 성능을 보이는가?
RQ5엔트로피 슬라이스 수 축소 및 채널 압축 사용이 RD 및 계산 효율성에 어떤 영향을 미치는가?

주요 결과

본 방법은 Kodak, Tecnick, CLIC 데이터셋에서 최첨단 RD 성능을 달성하여 VVC (VTM-12.1)보다 각각 12.30%, 13.71%, 11.85% BD-레이트를 상회했다.
SOTA 방법과 비교할 때 대형 모델은 Kodak에서 같은 비트레이트에서 최대 약 0.4 dB PSNR 및 0.5 dB MS-SSIM 이득을 제공한다.
SWAtten 모듈은 정보 손실을 줄여 대표적인 Kodak 샘플에서 εs를 0.451/0.422에서 0.389/0.365로 축소했다.
SWAtten 내 채널 압축 전략은 매개변수 및 FLOP 감소를 가져오면서 BD-레이트 성능은 경쟁력을 유지한다.
Transformer-CNN Mixture (TCM) 블록은 Transformer-전용 및 CNN-전용 기준선 모두에서 RD 이득을 제공하여 로컬 및 비로컬 모델링의 결합 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.