QUICK REVIEW

[论文解读] Learning Intrinsic Image Decomposition from Watching the World

Zhengqi Li, Noah Snavely|arXiv (Cornell University)|Apr 2, 2018

Advanced Vision and Imaging参考文献 32被引用 25

一句话总结

本文提出一种自监督方法，通过在固定视角但光照变化的未标注视频序列上训练卷积神经网络（CNN），学习跨帧一致的反射率与阴影预测，实现固有图像分解。该方法在IIW、SAW和MIT固有图像基准上达到最先进性能，训练过程中未使用任何真实分解标注，其表现甚至优于使用合成或实验室标注的监督方法。

ABSTRACT

Single-view intrinsic image decomposition is a highly ill-posed problem, and so a promising approach is to learn from large amounts of data. However, it is difficult to collect ground truth training data at scale for intrinsic images. In this paper, we explore a different approach to learning intrinsic images: observing image sequences over time depicting the same scene under changing illumination, and learning single-view decompositions that are consistent with these changes. This approach allows us to learn without ground truth decompositions, and to instead exploit information available from multiple images when training. Our trained model can then be applied at test time to single views. We describe a new learning framework based on this idea, including new loss functions that can be efficiently evaluated over entire sequences. While prior learning-based methods achieve good performance on specific benchmarks, we show that our approach generalizes well to several diverse datasets, including MIT intrinsic images, Intrinsic Images in the Wild and Shading Annotations in the Wild.

研究动机与目标

解决在缺乏昂贵或有限真实标注的情况下学习固有图像分解的挑战。
利用固定视角但光照变化的图像序列中的时间一致性作为训练的监督信号。
开发一种深度学习框架，使其在真实世界场景中具有良好泛化能力，包括IIW、SAW和MIT等多样化数据集。
设计新型序列级损失函数，以在无需显式标注的情况下强制实现跨多帧的一致性。
证明基于视频序列的自监督学习可实现与完全监督方法相当或更优的性能。

提出的方法

在BigTime（BT）数据集的大规模未标注视频序列上训练CNN，其中视角固定但光照随时间变化。
引入一种成对加权最小二乘损失，强制所有图像对在序列中保持反射率与阴影预测的一致性。
实施一种密集的时空平滑损失，强制在预测的反射率与阴影中实现空间和时间维度上的平滑性。
在训练过程中将序列级损失作为监督信号，使网络在无需任何真实反射率或阴影标签的情况下学习固有图像分解。
在推理阶段应用训练好的模型处理单幅图像，通过前向传播生成固有图像分解结果（R, S）。
利用图像序列的时间一致性作为弱监督信号，结合基于优化的先验与深度学习推理框架。

实验结果

研究问题

RQ1能否在无真实分解标注的情况下，从光照变化的未标注视频序列中有效学习固有图像分解？
RQ2基于时间一致性的自监督方法在IIW、SAW和MIT等多样化真实世界数据集上的泛化能力如何？
RQ3哪些类型的序列级损失在强制时间维度上实现固有图像分解一致性方面最有效？
RQ4在未标注视频上训练的模型能否超越在合成或实验室数据集上使用完整真实标注训练的监督模型？
RQ5所提方法在标准基准上的性能与基于优化的方法及监督深度学习方法相比如何？

主要发现

所提方法在IIW和SAW基准上达到最先进性能，其平均精度甚至优于最佳基于优化的方法[5]。
在MIT固有图像数据集上，该模型在反射率的均方误差（MSE）和结构相似性指数（DSSIM）方面优于监督CNN如DI[28]和Shi等人[34]，同时保持了具有竞争力的阴影估计性能。
该方法在SAW基准上显著优于在合成数据集（Sintel、ShapeNet）上训练的网络，证明其在真实世界场景中具有更优的泛化能力。
完整损失函数（结合成对损失与时空平滑损失）的性能优于移除任一组件的变体。
该模型在不同数据集间具有良好的泛化能力，在未进行微调或未访问其标注的情况下，于IIW和SAW上均取得优异结果。
定性结果表明分解结果视觉上合理，尽管在暗部区域存在一定的对比度损失，但未影响数值性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。