[논문 리뷰] Revisiting Image Deblurring with an Efficient ConvNet
논문은 모션 및 디포커스 디블러링을 위한 효율적인 ConvNet을 제시하며 LFDOF에서 엔드-투-엔드 성능이 우수하고 최첨단 방법과 비교해 경쟁력 있는 결과를 보여주고, 상세한 어블레이션 및 ERF 분석을 제공합니다.
Image deblurring aims to recover the latent sharp image from its blurry counterpart and has a wide range of applications in computer vision. The Convolution Neural Networks (CNNs) have performed well in this domain for many years, and until recently an alternative network architecture, namely Transformer, has demonstrated even stronger performance. One can attribute its superiority to the multi-head self-attention (MHSA) mechanism, which offers a larger receptive field and better input content adaptability than CNNs. However, as MHSA demands high computational costs that grow quadratically with respect to the input resolution, it becomes impractical for high-resolution image deblurring tasks. In this work, we propose a unified lightweight CNN network that features a large effective receptive field (ERF) and demonstrates comparable or even better performance than Transformers while bearing less computational costs. Our key design is an efficient CNN block dubbed LaKD, equipped with a large kernel depth-wise convolution and spatial-channel mixing structure, attaining comparable or larger ERF than Transformers but with a smaller parameter scale. Specifically, we achieve +0.17dB / +0.43dB PSNR over the state-of-the-art Restormer on defocus / motion deblurring benchmark datasets with 32% fewer parameters and 39% fewer MACs. Extensive experiments demonstrate the superior performance of our network and the effectiveness of each module. Furthermore, we propose a compact and intuitive ERFMeter metric that quantitatively characterizes ERF, and shows a high correlation to the network performance. We hope this work can inspire the research community to further explore the pros and cons of CNN and Transformer architectures beyond image deblurring tasks.
연구 동기 및 목표
- 모션 및 디포커스 디블러링 모두에 대해 효율적인 ConvNet 아키텍처를 조사한다.
- 성능과 효율성을 극대화하기 위해 네트워크 구조 및 계층 구성의 어블레이션을 조사한다.
- 여러 데이터셋에 걸친 일반화 성능을 평가하고 최첨단 방법과 비교한다.
제안 방법
- 효과적인 수용 필드 확장을 강조하며 디블러링을 위한 LaKD 블록 기반 아키텍처를 도입한다.
- 확장된 컨볼루션과 LaKD 블록 구조를 비교하는 어블레이션을 제공한다.
- LFDOF 합성 디포커스 데이터와 모션/디포커스 벤치마크용 GoPro/HIDE/RealBlur를 포함한 두 단계 학습 및 엔드-투-엔드 학습을 수행한다.
- ERF(유효 수용 필드) 피팅 및 ERFMeter 분석을 수행하여 학습 중 수용 필드의 성장을 정량화한다.
- Restormer 및 DRBNet과 같은 최첨단 방법과 여러 데이터셋에서 질적 및 양적 지표를 포함하여 비교한다.
실험 결과
연구 질문
- RQ1확장된 유효 수용 필드를 갖는 LaKD 블록이 확장된 컨볼루션 변형에 비해 디블러링 성능을 향상시키는가?
- RQ2특징 혼합 모듈의 깊이가 디블러링 품질과 효율성에 어떤 영향을 미치는가?
- RQ3LFDOF와 GoPro/HIDE/RealBlur에서 학습된 엔드-투-엔드 네트워크가 다른 디포커스 및 모션 흐림 데이터셋에 일반화될 수 있는가?
- RQ4제안된 방법이 LFDOF, DPDD, RealDOF, RealBlur 및 CUHK 데이터셋에서 현재 최첨단 방법과 어떻게 비교되는가?
주요 결과
- 제안된 방법은 LFDOF에서 AIFNet 및 DRBNet에 비해 우수한 PSNR/SSIM/LPIPS를 달성한다(31.87 PSNR, 0.912 SSIM, 0.115 LPIPS).
- LFDOF와 이후 실제 데이터셋을 이용한 두 단계 학습 전략이 단일 단계 방식보다 엔드-투-엔드 성능이 더 좋다.
- 특징 혼합 모듈에서 연속적인 depthwise 및 pointwise 계층이 정확도와 효율성의 최적 균형을 제공한다.
- 어블레이션 연구에서 확장된 컨볼루션 변형은 LaKD 블록보다 성능이 떨어지며, 수용 필드를 확장하는 LaKD 설계의 효과를 시사한다.
- ERF 분석은 훈련 중 수용 필드의 점진적 확장을 보여주며, 수용 필드 확장에 대한 기존 이론과 일치한다.
- 질적 결과는 GoPro, HIDE, RealBlur, DPDD, RealDOF 및 CUHK 데이터셋에서 Restormer 및 기타 기준선에 대해 경쟁력 있거나 더 우수한 시각적 결과를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.