QUICK REVIEW

[论文解读] Flash Photography for Data-Driven Hidden Scene Recovery

Matthew Tancik, Guy Satat|arXiv (Cornell University)|Oct 27, 2018

Advanced Optical Sensing Technologies参考文献 37被引用 29

一句话总结

本文提出一种基于数据驱动的非视域（NLOS）成像方法，利用消费级闪光灯摄影，结合几何建模与深度学习，实现对隐藏场景的定位、识别与重建。该方法在真实世界数据上实现了1.7厘米的2D定位精度和87.7%的物体分类准确率，表明隐藏物体的信息分布在整个可见场景中，而不仅局限于几何不连续区域。

ABSTRACT

Vehicles, search and rescue personnel, and endoscopes use flash lights to locate, identify, and view objects in their surroundings. Here we show the first steps of how all these tasks can be done around corners with consumer cameras. Recent techniques for NLOS imaging using consumer cameras have not been able to both localize and identify the hidden object. We introduce a method that couples traditional geometric understanding and data-driven techniques. To avoid the limitation of large dataset gathering, we train the data-driven models on rendered samples to computationally recover the hidden scene on real data. The method has three independent operating modes: 1) a regression output to localize a hidden object in 2D, 2) an identification output to identify the object type or pose, and 3) a generative network to reconstruct the hidden scene from a new viewpoint. The method is able to localize 12cm wide hidden objects in 2D with 1.7cm accuracy. The method also identifies the hidden object class with 87.7% accuracy (compared to 33.3% random accuracy). This paper also provides an analysis on the distribution of information that encodes the occluded object in the accessible scene. We show that, unlike previously thought, the area that extends beyond the corner is essential for accurate object localization and identification.

研究动机与目标

利用消费级闪光灯摄影实现实时光学定位、识别与重建隐藏物体。
通过在带有几何先验和数据增强的渲染数据上进行训练，克服大规模真实世界NLOS数据集的缺乏问题。
证明隐藏物体的信息分布在整个可见场景中，而不仅局限于角落或不连续区域。
开发一个生成模型，能够从新型虚拟相机位置重建隐藏场景的逼真视图。
表明数据驱动方法可在无需精确物理标定或复杂硬件的情况下实现鲁棒的NLOS成像。

提出的方法

该方法使用三重反射光传输模型模拟闪光照明，其中光线从相机朝向的墙面反射至隐藏物体并再次返回相机。
使用卷积神经网络（CNN）在包含几何变化和材质属性的合成渲染数据上进行训练，以预测物体位置和类别。
系统采用回归头进行2D定位，分类头进行物体类型或姿态识别，以及生成模型用于新视角合成。
为提升从合成数据到真实数据的泛化能力，训练数据集包含多样的渲染参数，如物体位置、材质和光照。
单独训练一个生成模型，使用真实世界同步视频对：一个相机观测可见场景，另一个相机捕捉隐藏场景以提供监督信号。
该方法结合经典几何理解与深度学习，实现无需大量标定的鲁棒推理。

实验结果

研究问题

RQ1在真实世界NLOS场景中，基于渲染数据训练的数据驱动深度学习模型能否实现对隐藏物体的准确定位与识别？
RQ2在可见场景中，对隐藏物体恢复最具信息量的信号位于何处——具体而言，信息是否仅集中于几何不连续区域，还是更广泛分布？
RQ3在真实世界数据上训练的生成模型能否在推理时无需访问隐藏区域，即可从新视角重建隐藏场景的逼真图像？
RQ4与仅依赖角落反射相比，包含非不连续区域（如平坦墙面）对NLOS物体定位与识别性能有何影响？
RQ5在无需微调或标定的情况下，数据驱动模型在多大程度上能从合成训练数据泛化到真实世界NLOS成像？

主要发现

该方法在2D平面上对12厘米宽的隐藏物体实现了平均1.7厘米的定位精度，显著优于基线方法。
物体分类准确率达到87.7%，远超33.3%的随机基线，证明了数据驱动识别的有效性。
可见场景不仅在几何不连续区域，而且在更广阔区域中编码了关于隐藏物体的关键信息，挑战了先前假设。
排除角落之外的区域（区域1）会使分类准确率降至51%，而包含该区域则提升性能，证明其对鲁棒推理的重要性。
在真实同步视频对上训练的生成模型成功实现了从新相机视角的隐藏场景逼真图像重建，且监督信号极少。
系统可实现实时运行，并通过单一消费级闪光灯与相机配置支持定位、识别与重建等多项任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。