[论文解读] DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs
DeepFuse 提出了一种新颖的无监督深度卷积神经网络框架,用于融合极端曝光图像对,且无需真实标签。它使用无参考图像质量度量作为损失函数,训练一个端到端网络,融合输入图像的低层特征,相比最先进方法,在感知质量与无伪影方面表现更优,即使在训练数据极少的情况下亦如此。
We present a novel deep learning architecture for fusing static multi-exposure images. Current multi-exposure fusion (MEF) approaches use hand-crafted features to fuse input sequence. However, the weak hand-crafted representations are not robust to varying input conditions. Moreover, they perform poorly for extreme exposure image pairs. Thus, it is highly desirable to have a method that is robust to varying input conditions and capable of handling extreme exposure without artifacts. Deep representations have known to be robust to input conditions and have shown phenomenal performance in a supervised setting. However, the stumbling block in using deep learning for MEF was the lack of sufficient training data and an oracle to provide the ground-truth for supervision. To address the above issues, we have gathered a large dataset of multi-exposure image stacks for training and to circumvent the need for ground truth images, we propose an unsupervised deep learning framework for MEF utilizing a no-reference quality metric as loss function. The proposed approach uses a novel CNN architecture trained to learn the fusion operation without reference ground truth image. The model fuses a set of common low level features extracted from each image to generate artifact-free perceptually pleasing results. We perform extensive quantitative and qualitative evaluation and show that the proposed technique outperforms existing state-of-the-art approaches for a variety of natural images.
研究动机与目标
- 解决现有方法因伪影和鲁棒性差而难以处理极端曝光图像对融合的挑战。
- 克服多曝光融合中监督深度学习因缺乏足够训练数据和真实标签而受限的问题。
- 开发一种通用的、端到端的深度学习框架,无需参数微调即可泛化于各种光照和场景条件。
- 证明感知质量度量可有效作为无真实标签情况下的损失函数。
提出的方法
- 共享权重的CNN架构从一对极端曝光图像中分别提取共有的低层特征。
- 通过融合层将对应图像对的特征进行融合,形成联合表征。
- 将融合后的特征通过重建层,生成最终的融合图像。
- 使用无参考图像质量度量作为损失函数,端到端训练网络,从而无需真实图像。
- 损失函数基于感知度量(MEF SSIM),实证表明其性能优于ℓ₁和MSE损失。
- 在大规模、多样化的曝光堆栈数据集上进行训练,数据采集自各种真实世界条件(室内外、昼夜等)。
实验结果
研究问题
- RQ1无监督深度CNN能否在无任何真实标签监督的情况下,有效学习融合极端曝光图像对?
- RQ2在无真实图像的情况下,无参考图像质量度量作为多曝光融合的损失函数表现如何?
- RQ3单一训练模型能否在无需微调的情况下泛化于多样化的曝光条件和场景类型?
- RQ4使用MEF SSIM等感知度量作为损失函数,是否能带来优于ℓ₁或MSE等标准损失的融合效果?
- RQ5同一训练网络能否迁移至其他图像融合任务,如多焦点融合?
主要发现
- 在多种自然图像序列的定量与定性评估中,DeepFuse在七种最先进方法中表现最优。
- 对于三张图像的曝光堆栈,DeepFuse的平均MEF SSIM达到0.987,超过Mertens等人提出的0.979。
- 对于四张图像的曝光堆栈,DeepFuse的平均MEF SSIM为0.972,相较Mertens等人的0.978略有下降,但主要因训练数据有限所致。
- 该方法速度比Mertens等人快3–4倍,对于512×384图像的GPU推理时间仅为0.07秒。
- 训练后的网络可无需微调即良好泛化至多焦点融合任务,生成全景深效果,证明了所学习特征的通用性。
- 使用精确的MEF SSIM作为损失函数,相比ℓ₁和MSE,能获得更优结果,验证了其在无监督训练中的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。