[논문 리뷰] Low-Light Image Enhancement with Normalizing Flow
LLFlow는 조건부 정규화 흐름을 사용해 보통 노출된 이미지의 조건부 분포를 모델링하고, 저조도 입력으로부터 다수의 향상을 가능하게 하여 밝기가 좋아지고, 노이즈/아티팩트가 감소하며 색상이 더 풍부해진다.
To enhance low-light images to normally-exposed ones is highly ill-posed, namely that the mapping relationship between them is one-to-many. Previous works based on the pixel-wise reconstruction losses and deterministic processes fail to capture the complex conditional distribution of normally exposed images, which results in improper brightness, residual noise, and artifacts. In this paper, we investigate to model this one-to-many relationship via a proposed normalizing flow model. An invertible network that takes the low-light images/features as the condition and learns to map the distribution of normally exposed images into a Gaussian distribution. In this way, the conditional distribution of the normally exposed images can be well modeled, and the enhancement process, i.e., the other inference direction of the invertible network, is equivalent to being constrained by a loss function that better describes the manifold structure of natural images during the training. The experimental results on the existing benchmark datasets show our method achieves better quantitative and qualitative results, obtaining better-exposed illumination, less noise and artifact, and richer colors.
연구 동기 및 목표
- 저조도 향상에서 하나의 입력에 다수의 출력이 가능하다는 매핑 때문에 픽셀 단위 손실을 넘어서야 할 필요성을 제시한다.
- 저조도 입력에 조건화된 잘 노출된 이미지의 분포를 학습하기 위한 조건부 정규화 흐름 프레임워크를 제안한다.
- 조도 불변의 색상 맵을 Retinex에서 영감을 받은 인코더를 통해 도입하여 전역 이미지 특성을 포착한다.
- 최신 방법과 비교하여 공개 벤치마크에서 정량적·정성적 결과의 향상을 보여준다.
- LLFlow 내의 각 구성요소와 학습 전략을 정당화하기 위한 ablations를 제공한다.
제안 방법
- 저조도 이미지를 잠재 코드 z를 통해 일반적으로 노출된 이미지의 분포로 매핑하기 위해 조건부 정규화 흐름을 사용합니다, f_flow(x|x_l)와 함께.
- 저조도 입력에서 조도 불변 색상 맵 g(x_l)을 인코딩하여 흐름을 조건부로 제어하고 전역 장면 특성을 포착한다.
- 색상 충실도 향상과 노이즈에 대한 강건성을 높이기 위해 Retinex에서 영감을 받은 색상 맵 C(x)과 노이즈 맵 N(x)를 인코더 입력으로 포함한다.
- 변환 공식(change-of-variables)으로 정확한 가능도 최대화로 학습하며, 인코더-조건부 잠재 사전 f_z(z)와 평균 조건화를 위한 임의 선택자 r(a,b)를 사용한다.
- 추론 시 가짜로 샘플 z를 N(g(x_l), I)에서 샘플링하거나 더 빠른 결과를 위해 z = g(x_l)을 사용하여 정상적으로 노출된 이미지를 생성한다.
- NLL 학습을 L1과 비교하기 위한 ablation 친화적 설계를 채택하고 흐름 기반 접근법의 이점을 입증한다.
실험 결과
연구 질문
- RQ1저조도 입력이 주어졌을 때 다중 모드 분포를 픽셀 단위 손실보다 더 잘 포착할 수 있는가?
- RQ2조도 불변의 색상 맵을 사전으로 도입하면 향상된 이미지의 색감 포화도와 아티팩트를 줄일 수 있는가?
- RQ3표준 저조도 벤치마크(LOL)와 크로스 데이터셋 시나리오(VE-LOL)에서 LLFlow의 성능은 최신 방법과 비교하여 어떠한가요?
- RQ4NLL 손실과 전통적인 L1 손실로 학습하는 것이 지각 품질과 아티팩트에 어떤 영향을 미치는가요?
주요 결과
| Method | PSNR | SSIM | LPIPS |
|---|---|---|---|
| LLFlow (Ours) | 25.19 | 0.93 | 0.11 |
| KinD++ (Zhang et al. 2021) | 21.30 | 0.82 | 0.16 |
| KinD (Zhang et al. 2019) | 20.87 | 0.80 | 0.17 |
| Lv, Li, and Lu (2021) | 20.24 | 0.79 | 0.14 |
| DRBN (Yang et al. 2020) | 20.13 | 0.83 | 0.16 |
| EnlightenGAN (Jiang et al. 2021) | 17.48 | 0.65 | 0.32 |
| Zero-DCE (Guo et al. 2020) | 14.86 | 0.54 | 0.33 |
- LLFlow가 LOL에서 우수한 PSNR, SSIM 및 LPIPS를 달성하여 경쟁사를 앞섰습니다(예: LLFlow PSNR 25.19, SSIM 0.93, LPIPS 0.11).
- 크로스 데이터셋 평가에서 LOL에서 학습했을 때 VE-LOL에서 가장 우수한 정량적 결과를 달성합니다(PSNR 23.85, SSIM 0.8986, LPIPS 0.1456).
- 동일 데이터셋 VE-LOL 내 결과( VE-LOL로 재학습)에서 LLFlow가 PSNR 26.02, SSIM 0.9266, LPIPS 0.0996로 선두를 보였다.
- ablation 연구에 따르면 NLL 학습이 L1 기반 학습보다 상당히 우수하며, 조도 불변 색상 맵이 기준 이미지와의 정합성을 개선한다.
- 시각적 분석(그래디언트 활성화 맵)은 LLFlow가 아티팩트가 발생하기 쉬운 영역을 국소화하고 비현실적인 영역을 제약하는 능력을 보여준다.
- 샘플링 실험은 밝기가 잠재 변수 z에 따라 단조롭게 변함을 보여주며, 밝기 분산의 더 나은 인코딩을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.