[논문 리뷰] Toward Generalizable Deblurring: Leveraging Massive Blur Priors with Linear Attention for Real-World Scenarios
이 논문은 Blur Pattern Pretraining (BPP)을 통해 학습된 blur priors로 안내되고 Motion and Semantic Guidance (MoSeG)로 강화된 경량 확산 기반 디블러링 모델 GLOWDeblur를 제안하며, 다양한 블러 패턴에 대한 실제 세계 일반화가 강하게 달성됨을 보여준다.
Image deblurring has advanced rapidly with deep learning, yet most methods exhibit poor generalization beyond their training datasets, with performance dropping significantly in real-world scenarios. Our analysis shows this limitation stems from two factors: datasets face an inherent trade-off between realism and coverage of diverse blur patterns, and algorithmic designs remain restrictive, as pixel-wise losses drive models toward local detail recovery while overlooking structural and semantic consistency, whereas diffusion-based approaches, though perceptually strong, still fail to generalize when trained on narrow datasets with simplistic strategies. Through systematic investigation, we identify blur pattern diversity as the decisive factor for robust generalization and propose Blur Pattern Pretraining (BPP), which acquires blur priors from simulation datasets and transfers them through joint fine-tuning on real data. We further introduce Motion and Semantic Guidance (MoSeG) to strengthen blur priors under severe degradation, and integrate it into GLOWDeblur, a Generalizable reaL-wOrld lightWeight Deblur model that combines convolution-based pre-reconstruction & domain alignment module with a lightweight diffusion backbone. Extensive experiments on six widely-used benchmarks and two real-world datasets validate our approach, confirming the importance of blur priors for robust generalization and demonstrating that the lightweight design of GLOWDeblur ensures practicality in real-world applications. The project page is available at https://vegdog007.github.io/GLOWDeblur_Website/.
연구 동기 및 목표
- deblur가 왜 학습 데이터 너머의 실제 세계 블러 패턴에 일반화하는 데 실패하는지 식별한다.
- cross-dataset 일반화에서 blur 패턴 다양성과 현실성의 역할을 정량화한다.
- 실제로 학습된 blur priors를 학습 데이터로부터 학습하고 이를 실제 세계 데이터로 전이시키는 데이터 중심 사전 학습 전략(BPP)을 제안한다.
- 실제 세계 사용에 실용적인 경량 확산 기반 디블러링 모델(GLOWDeblur)을 개발한다.
- 강한 일반화를 위한 priors를 모션 가이드와 크로스 모드 시맨틱 큐를 통해 강화한다.
제안 방법
- 대규모 시뮬레이션 데이터셋에서 다양한 블러 패턴으로 blur priors를 학습하는 Blur Pattern Pretraining (BPP).
- 두 단계 학습: 시뮬레이션 데이터에 대한 BPP와 실제 세계 데이터에 대한 공동 파인튜닝.
- Motion Guidance (MoG)로 경량 모션 추정기를 통해 궤적 기반의 블러 큐를 제공한다.
- Semantic Guidance (SeG)로 크로스-모달 캡션을 사용해 diffusion 백본에 고수준의 장면 시맨틱 정보를 공급한다.
- GLOWDeblur 아키텍처: pre-reconstruction & domain-alignment 모듈과 Deep Compression AutoEncoder 및 Linear Attention이 포함된 경량 확산 백본.
- Efficient design choices: SimpleGate 활성화와 Simplified Channel Attention으로 효율성을 개선; 잠재 확산을 매우 압축된 잠재 공간에서 수행한다.
실험 결과
연구 질문
- RQ1deblurring 모델이 실제 세계의 블러 패턴에 일반화하는 데 어떤 주요 요인이 한정되는가?
- RQ2블러 패턴 다양성을 어떻게 포착하고 전이시켜 cross-dataset 강건성을 향상시킬 수 있는가?
- RQ3경량 확산 기반 프레임워크가 실세계 성능을 달성하면서 배포에 실제로도 실용적인가?
- RQ4-motion 및 시맨틱 가이드를 도입하면 심각한 블러에서도 복원 성능이 더 향상되는가?
주요 결과
- 블러 패턴 다양성은 현실성뿐 아니라 일반화의 크기에 영향을 주며 cross-dataset 일반화 격차를 유발한다.
- 시뮬레이션에서 실제 데이터로 전이할 때 BPP는 일치도에서의 정확도와 교차 도메인 강건성을 일관되게 향상시킨다.
- 데이터셋 간 단순 혼합 학습은 성능을 저하시켜, 반면 BPP는 분포 차이를 메운다.
- GLOWDeblur은 여섯 개의 벤치마크와 두 개의 실제 데이터셋에서 강한 성능을 달성하며 일반화가 개선됨을 보여준다.
- MoSeG(모션 가이드 및 시맨틱 가이드)는 blur priors를 강화하고 심하게 저해된 영역의 복원에 도움을 준다.
- 선형 어텐션과 32x 깊은 압축 오토인코더를 갖춘 경량 확산 백본은 성능 저하 없이 실용적인 실제 세계 효율성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.