[논문 리뷰] ShuffleMixer: An Efficient ConvNet for Image Super-Resolution
ShuffleMixer는 대-커널 깊이 방향 합성으로 채널 분할/섞기 및 Fused-MBConvs를 활용하여 이미지 초해상도에서 최신의 효율을 달성하며, 이전의 경량 모델들보다 매개변수/ FLOPs가 약 6배 적은 반면 경쟁력 있는 SR 성능을 유지합니다.
Lightweight and efficiency are critical drivers for the practical application of image super-resolution (SR) algorithms. We propose a simple and effective approach, ShuffleMixer, for lightweight image super-resolution that explores large convolution and channel split-shuffle operation. In contrast to previous SR models that simply stack multiple small kernel convolutions or complex operators to learn representations, we explore a large kernel ConvNet for mobile-friendly SR design. Specifically, we develop a large depth-wise convolution and two projection layers based on channel splitting and shuffling as the basic component to mix features efficiently. Since the contexts of natural images are strongly locally correlated, using large depth-wise convolutions only is insufficient to reconstruct fine details. To overcome this problem while maintaining the efficiency of the proposed module, we introduce Fused-MBConvs into the proposed network to model the local connectivity of different features. Experimental results demonstrate that the proposed ShuffleMixer is about 6x smaller than the state-of-the-art methods in terms of model parameters and FLOPs while achieving competitive performance. In NTIRE 2022, our primary method won the model complexity track of the Efficient Super-Resolution Challenge [23]. The code is available at https://github.com/sunny2109/MobileSR-NTIRE2022.
연구 동기 및 목표
- 모바일 및 자원 제약 환경에서 경량화되고 효율적인 단일 이미지 초해상도(SISR)를 목표로 한다.
- 수용 영역을 과도한 매개변수 없이 확장하기 위해 대-커널 ConvNet 설계를 도입한다.
- 공간 정보와 채널 정보를 효율적으로 혼합하는 특징 혼합 블록을 개발한다.
- Fused-MBConvs를 통한 로컬 연결성을 포함시켜 세부 디테일 재구성을 향상시킨다.
제안 방법
- 초기 3x3 특징 추출 계층으로 ShuffleMixer 아키텍처를 개발한다.
- 두 개의 shuffle mixer 레이어와 Fused-MBConv 모듈로 구성된 특징 혼합 블록(FMB)을 사용한다.
- 채널 투영의 매개변수 수를 줄이기 위해 채널 분할 및 셔플링(CSS)을 활용한다.
- 로컬 특징 연결성을 강화하기 위해 두 개의 shuffle mixer 레이어 뒤에 Fused-MBConv 블록을 삽입한다.
- 경량 1x1 컨볼루션과 픽셀 셔플링으로 업샘플링한 뒤 잔차 연결을 통해 SR을 재구성한다.
- 고주파수 디테일 보존을 촉진하기 위해 L1 픽셀 손실과 FFT를 통한 주파수 영역 손실로 학습한다.
실험 결과
연구 질문
- RQ1대-커널 깊이별 CNN에서 채널 분할이 매개변수/ FLOPs를 크게 줄이더라도 경쟁력 있는 SR 품질을 달성할 수 있는가?
- RQ2Fused-MBConvs와 로컬 연결성을 도입하면 ShuffleMixer의 디테일 재구성에 도움이 되는가?
- RQ3커널 크기, 채널 프로젝션 전략, 잔차 블록이 SR 성능과 효율성에 미치는 영향은 무엇인가?
주요 결과
- ShuffleMixer는 최첨단 경량 SR 방법들보다 ~6x 더 작은 매개변수 및 FLOP 수를 달성하면서도 PSNR/SSIM에서 경쟁력을 제공한다.
- ShuffleMixer-Tiny (113K 매개변수)는 표준 벤치마크에서 기존의 많은 방법을 능가한다.
- 깊이별 커널 크기를 늘리면 7x7까지 PSNR이 향상되되 비용은 완만하게 증가하고, 더 큰 크기는 수익이 감소한다.
- 채널 분할 및 셔플링(CSS)은 매개변수 수를 줄이지만 투영 레이어(CDC)의 반복으로 성능 회복으로 보완될 수 있다.
- Fused-MBConvs(S-FMBConv)를 도입하면 복잡도와 SR 품질 간의 유리한 균형을 제공한다.
- GT 벤치마크에서의 성능(×2, ×3, ×4)에서 ShuffleMixer 변형은 강력한 SR 성능과 GPU에서의 우수한 런타임(0.016–0.021s for 1280×720 HR size)을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.