QUICK REVIEW

[논문 리뷰] Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion

Minglong Xue, Jinhong He|arXiv (Cornell University)|2024. 01. 08.

Image Enhancement Techniques인용 수 10

한 줄 요약

CFWD는 CLIP-가이드 다중 스케일 언어 프롬프트와 하이브리드 Wavelet-Fourier 주파수 도메인 공간을 도입하여 확산 기반의 저조도 영상 향상을 안내하고, 공개 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

Low-light image enhancement techniques have significantly progressed, but unstable image quality recovery and unsatisfactory visual perception are still significant challenges. To solve these problems, we propose a novel and robust low-light image enhancement method via CLIP-Fourier Guided Wavelet Diffusion, abbreviated as CFWD. Specifically, CFWD leverages multimodal visual-language information in the frequency domain space created by multiple wavelet transforms to guide the enhancement process. Multi-scale supervision across different modalities facilitates the alignment of image features with semantic features during the wavelet diffusion process, effectively bridging the gap between degraded and normal domains. Moreover, to further promote the effective recovery of the image details, we combine the Fourier transform based on the wavelet transform and construct a Hybrid High Frequency Perception Module (HFPM) with a significant perception of the detailed features. This module avoids the diversity confusion of the wavelet diffusion process by guiding the fine-grained structure recovery of the enhancement results to achieve favourable metric and perceptually oriented enhancement. Extensive quantitative and qualitative experiments on publicly available real-world benchmarks show that our approach outperforms existing state-of-the-art methods, achieving significant progress in image quality and noise suppression. The project code is available at https://github.com/hejh8/CFWD.

연구 동기 및 목표

아티팩트 없이 구조와 색상을 보존하는 강건한 저조도 영상 향상을 촉진한다.
웨이블렛 기반의 전역 정보와 고주파 회복을 갖춘 확산 모델을 활용한다.
확산을 제약하고 지각적 품질을 향상시키기 위해 CLIP 기반 시각-언어 가이던스를 도입한다.
고주파 디테일과 질감 복원을 강화하기 위한 하이브리드 주파수 도메인 모듈을 개발한다.

제안 방법

확산 처리를 위해 저조도 이미지를 글로벌 구성요소와 고주파 구성요소로 분해하는 K급 이산 웨이블렛 변환을 사용한다.
웨이블렛 도메인에서 글로벌 정보에 대한 확산 추론을 수행하고, 학습 단계의 글로벌 정보와의 L2 일관성을 통해 감독한다.
Wavelet 및 Fourier 표현을 결합한 Hybrid Frequency Domain Perception Module (HFDPM)을 도입하여 L1 및 Fourier 기반 손실로 고주파 디테일을 복구한다.
CLIP를 이용해 다중 프롬프트 스케일(T_p, T_n)을 통한 점진적 향상을 안내하는 다중 스케일 시각-언어 가이드 네트워크를 적용하고 CLIP 기반 손실(L_ALE, L_CLIPE, L_MSE)을 사용한다.
총 목적 함수 L_All = L_diff + L_CLIP + L_HFDPM + L_element를 최적화하며, L_element(콘텐츠 손실)을 통해 참조 이미지와의 정합성과 SSIM을 유지한다.

실험 결과

연구 질문

RQ1CLIP-가이드 다중 스케일 언어 가이던스가 확산 기반의 저조도 향상 안정성 및 지각적 충실도를 향상시킬 수 있는가?
RQ2하이브리드 웨이블렛-푸리에 주파수 도메인 공간이 이전의 확산 기반 방법에 비해 세부를 더 잘 보존하면서 글로벌 구조를 유지하는가?
RQ3다중 스케일 시각-언어 가이던스가 실제 저조도 데이터셋에서 향상된 이미지의 품질에 어떤 영향을 미치는가?
RQ4하이브리드 주파수 도메인 인식 모듈(HFDPM)의 고주파 회복 및 지각적 품질에 대한 기여는 무엇인가?

주요 결과

CFWD는 PSNR, SSIM, LPIPS, FID에서 LOLv1, LOLv2-Real_captured, 및 LSRW 데이터셋에 대해 최첨단 정량적 성능을 달성한다.
이전 SOTA WCDM에 비해 CFWD는 LOLv1에서 PSNR을 약 2.88 dB, SSIM을 약 0.027 개선하며, LOLv2-Real_captured 및 LSRW에서 뚜렷한 이점을 보인다.
CFWD는 고해상도 BAID 데이터에 대한 일반화가 강하고, 비쌍 데이터셋 LIME 및 DICM에서 NIQE 및 BRISQUE를 사용해 더 나은 성능(낮을수록 좋음)을 보인다.
프롬프트 스케일 M을 증가시키면 성능이 향상되며, LOLv1에서 PSNR/SSIM/LPIPS/FID에 대해 M=3이 최적의 결과를 제공한다.
하이브리드 주파수 도메인 인식 모듈(HFDPM) 버전 v3가 실험된 변형 중 가장 강력한 고주파 특징 복구 및 지각적 품질을 제공한다.
정성적 결과는 CFWD가 색상 왜곡, 아티팩트, 과다/부족 노출을 감소시키고 정상 조명에 더 가까운 이미지를 제공하며 내용 구조를 유지함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.