[论文解读] Low-Light Image Enhancement with Normalizing Flow
LLFlow 使用条件正向流模型来建模正常曝光图像的条件分布,基于低光输入实现一对多的增强,并带来更好的亮度、降低的噪声/伪影,以及更丰富的色彩。
To enhance low-light images to normally-exposed ones is highly ill-posed, namely that the mapping relationship between them is one-to-many. Previous works based on the pixel-wise reconstruction losses and deterministic processes fail to capture the complex conditional distribution of normally exposed images, which results in improper brightness, residual noise, and artifacts. In this paper, we investigate to model this one-to-many relationship via a proposed normalizing flow model. An invertible network that takes the low-light images/features as the condition and learns to map the distribution of normally exposed images into a Gaussian distribution. In this way, the conditional distribution of the normally exposed images can be well modeled, and the enhancement process, i.e., the other inference direction of the invertible network, is equivalent to being constrained by a loss function that better describes the manifold structure of natural images during the training. The experimental results on the existing benchmark datasets show our method achieves better quantitative and qualitative results, obtaining better-exposed illumination, less noise and artifact, and richer colors.
研究动机与目标
- 动机在于说服人们需要超越逐像素损失,因为低光增强存在一对多的映射。
- 提出一个条件正则化流框架,以在低光输入条件下学习良好曝光图像的分布。
- 通过一个受 Retinex 启发的编码器引入一个对照明不变的颜色映射,以捕获全局图像属性。
- 在公开基准上展示相较于最先进方法的定量和定性改进结果。
- 提供消融研究以证明 LLFlow 内每个组件及训练策略的贡献。
提出的方法
- 使用一个条件归一化流通过潜在编码 z 将低光图像映射到一组正常曝光图像的分布,函数为 f_flow(x|x_l)。
- 从低光输入编码一个对照明不变的颜色映射 g(x_l),以对流进行条件化并捕获全局场景属性。
- 将受 Retinex 启发的颜色映射 C(x) 和噪声映射 N(x) 作为编码器输入,以提高颜色保真度和对噪声的鲁棒性。
- 通过使用变量变换公式最大化精确似然进行训练,采用编码器条件的潜在先验 f_z(z) 以及用于均值条件的随机选择器 r(a,b)。
- 推理阶段,从 N(g(x_l), I) 采样 z,或为了更快的结果使用 z = g(x_l) 来生成正常曝光图像。
- 采用便于消融的设计,将 NLL 训练与 L1 训练进行比较,并展示基于流的方法的优势。
实验结果
研究问题
- RQ1相比像素级损失,条件归一化流能否更好地捕捉给定低光输入的良好曝光图像的多模态分布?
- RQ2将对照明不变的颜色映射作为先验引入,是否能提高增强图像的色彩饱和度并减少伪影?
- RQ3在标准低光基准(LOL)和跨数据集场景(VE-LOL)中,与最先进方法相比,LLFlow 的性能如何?
- RQ4以 NLL 损失相对于传统的 L1 损失进行训练对感知质量和伪影有何影响?
主要发现
| 方法 | PSNR | SSIM | LPIPS |
|---|---|---|---|
| LLFlow (Ours) | 25.19 | 0.93 | 0.11 |
| KinD++ (Zhang et al. 2021) | 21.30 | 0.82 | 0.16 |
| KinD (Zhang et al. 2019) | 20.87 | 0.80 | 0.17 |
| Lv, Li, and Lu (2021) | 20.24 | 0.79 | 0.14 |
| DRBN (Yang et al. 2020) | 20.13 | 0.83 | 0.16 |
| EnlightenGAN (Jiang et al. 2021) | 17.48 | 0.65 | 0.32 |
| Zero-DCE (Guo et al. 2020) | 14.86 | 0.54 | 0.33 |
- LLFlow 在 LOL 上获得更高的 PSNR、SSIM、LPIPS,优于竞争方法(例如 LLFlow 的 PSNR 25.19,SSIM 0.93,LPIPS 0.11)。
- 跨数据集评估显示,在以 LOL 训练时,LLFlow 在 VE-LOL 上获得最佳定量结果(PSNR 23.85,SSIM 0.8986,LPIPS 0.1456)。
- 同一数据集 VE-LOL 的结果(在 VE-LOL 上重新训练)显示 LLFlow 位列第一,PSNR 26.02,SSIM 0.9266,LPIPS 0.0996。
- 消融研究表明 NLL 训练显著优于基于 L1 的训练,且对照明不变的颜色映射提高了与参考图像的一致性。
- 视觉分析(梯度激活图)展示了 LLFlow 定位易产生伪影的区域并约束不现实区域的能力。
- 采样实验表明亮度随潜在变量 z 单调变化,表明对亮度方差的编码更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。