[论文解读] Single Image Reflection Removal Using Deep Encoder-Decoder Network
本文提出一种基于深度编码器-解码器CNN的单图像去反射方法,通过学习从含反射图像到无反射图像的映射关系实现。该方法仅在使用物理反射模型生成的逼真合成数据上进行训练,在真实世界图像上显著优于当前最先进方法,实现了SOTA的PSNR结果,并且无需依赖关于反射平滑性的假设。
Image of a scene captured through a piece of transparent and reflective material, such as glass, is often spoiled by a superimposed layer of reflection image. While separating the reflection from a familiar object in an image is mentally not difficult for humans, it is a challenging, ill-posed problem in computer vision. In this paper, we propose a novel deep convolutional encoder-decoder method to remove the objectionable reflection by learning a map between image pairs with and without reflection. For training the neural network, we model the physical formation of reflections in images and synthesize a large number of photo-realistic reflection-tainted images from reflection-free images collected online. Extensive experimental results show that, although the neural network learns only from synthetic data, the proposed method is effective on real-world images, and it significantly outperforms the other tested state-of-the-art techniques.
研究动机与目标
- 为解决由于缺乏显式先验和逆问题欠定性而难以处理的单图像去反射挑战性、病态问题。
- 克服现有方法依赖多幅图像、偏振滤波器或对反射平滑性或稀疏性的假设所带来的局限性。
- 开发一种数据驱动的深度学习方法,即使仅在合成数据上训练,也能在真实世界图像上实现良好泛化。
- 通过建模图像中反射的物理形成过程,生成大规模、逼真的训练数据,以提升泛化能力。
提出的方法
- 设计了一个三阶段深度编码器-解码器网络,首先估计反射层,然后利用感知学习和残差学习重建透射层。
- 使用包含L1损失和VGG感知损失(权重λ=0.001)的联合损失函数进行端到端训练。
- 利用物理图像形成模型生成合成的反射污染图像:I = αT + βR + n,其中α和β分别为透射率和反射率,n为噪声。
- 从真实户外和室内场景中随机裁剪并缩放反射图像,通过随机采样模糊方差和透射率α(0.75–0.8)来模拟真实变化。
- 训练数据包含66,540张合成图像(128×128),测试集包含22,110张图像,通过随机裁剪和缩放进行数据增强。
- 使用Adam优化器,学习率为10⁻⁴,β₁=0.9,批量大小为64,在TITAN X GPU上训练150个周期。
实验结果
研究问题
- RQ1仅在合成数据上训练的深度学习模型能否有效泛化到真实世界单图像去反射任务?
- RQ2数据驱动方法是否优于依赖显式先验(如反射层平滑性或稀疏性)的现有方法?
- RQ3物理图像形成模型能否有效用于生成逼真的去反射训练数据?
- RQ4与当前最先进方法相比,该方法在真实图像上的PSNR和视觉质量表现如何?
主要发现
- 在合成图像上,该方法达到29.08的PSNR,显著优于[5](19.72)和[7](19.82)。
- 在[41]的基准数据集上,该方法达到18.70的PSNR,优于[5](16.85)和[7](18.29)。
- 该方法在真实世界图像上泛化良好,即使在强反射或非平滑条件下仍能生成优异视觉结果,而[7]在非平滑条件下失效。
- 与[5]相比,该方法能更好地保留细节,后者存在严重细节丢失并产生不自然输出。
- 处理时间高效,128×128图像约需0.6秒,512×512图像约需2秒。
- 该网络不依赖对反射平滑性的假设,因此在各种真实世界反射模式下均表现出鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。