QUICK REVIEW

[論文レビュー] Flash Photography for Data-Driven Hidden Scene Recovery

Matthew Tancik, Guy Satat|arXiv (Cornell University)|Oct 27, 2018

Advanced Optical Sensing Technologies参考文献 37被引用数 29

ひとこと要約

本論文は、一般消費者用フラッシュカメラを用いたデータ駆動型非視界（NLOS）画像化手法を提示する。幾何学的モデリングと深層学習を統合し、隠れたシーンの局所化、同定、再構成を実現する。実世界のデータを用いた実験で、2次元局所化精度が1.7cm、物体分類精度が87.7%に達し、隠れた物体に関する情報は幾何的不連続性の近くに限らず、可視シーン全体に広がっていることを示している。

ABSTRACT

Vehicles, search and rescue personnel, and endoscopes use flash lights to locate, identify, and view objects in their surroundings. Here we show the first steps of how all these tasks can be done around corners with consumer cameras. Recent techniques for NLOS imaging using consumer cameras have not been able to both localize and identify the hidden object. We introduce a method that couples traditional geometric understanding and data-driven techniques. To avoid the limitation of large dataset gathering, we train the data-driven models on rendered samples to computationally recover the hidden scene on real data. The method has three independent operating modes: 1) a regression output to localize a hidden object in 2D, 2) an identification output to identify the object type or pose, and 3) a generative network to reconstruct the hidden scene from a new viewpoint. The method is able to localize 12cm wide hidden objects in 2D with 1.7cm accuracy. The method also identifies the hidden object class with 87.7% accuracy (compared to 33.3% random accuracy). This paper also provides an analysis on the distribution of information that encodes the occluded object in the accessible scene. We show that, unlike previously thought, the area that extends beyond the corner is essential for accurate object localization and identification.

研究の動機と目的

一般消費者用フラッシュ撮影を用いて、コーナーの向こうに隠れた物体のリアルタイムな局所化、識別、再構成を可能にすること。
幾何的事前知識とデータ拡張を用いてレンダリングされたデータで学習することで、大規模な実世界NLOSデータセットの不足を補うこと。
隠れた物体に関する情報が、コーナー付近や不連続性の近くに限らず、可視シーン全体に広がっていることを実証すること。
新たな仮想カメラ位置から隠れたシーンの写真並みのビューを再構成できる生成モデルを開発すること。
正確な物理的キャリブレーションや複雑なハードウェアを必要としないデータ駆動型手法が、堅牢なNLOS画像化を達成できることを示すこと。

提案手法

光がカメラに面した壁から跳ね返り、隠れた物体に当たって再びカメラに戻る三回反射光輸送モデルを用いて、フラッシュ照明をシミュレートする。
物体の位置と分類を予測するため、幾何的変異と材料特性を組み込んだ合成レンダリングデータで訓練された畳み込みニューラルネットワーク（CNN）を採用する。
2次元局所化のための回帰ヘッド、物体タイプやポーズ認識のための分類ヘッド、および新規ビュー合成のための生成モデルを採用する。
合成データから実データへの一般化を向上させるために、物体の位置、材料、照明などの多様なレンダリングパラメータを訓練データに含める。
別個の生成モデルを、実世界の同期動画ペアで訓練する：一方のカメラは可視シーンを観測し、もう一方は隠れたシーンを監視として記録する。
古典的な幾何的理解と深層学習を組み合わせることで、広範なキャリブレーションを必要とせずに堅牢な推論を実現する。

実験結果

リサーチクエスチョン

RQ1レンダリングされたデータで学習したデータ駆動型深層学習モデルは、一般消費者用フラッシュ撮影を用いて、実世界のNLOS状況において隠れた物体の正確な局所化と識別を達成できるか？
RQ2隠れた物体の回復に最も有益な信号は可視シーンのどこに存在するか—具体的には、幾何的不連続性の近くに局所化されているのか、それとも広く分散しているのか？
RQ3実世界データで訓練された生成モデルは、推論時に隠れた領域にアクセスせずに、新たな視点から隠れたシーンの写真並みの画像を再構成できるか？
RQ4非不連続領域（例：平らな壁）を含めることで、コーナー反射のみに依存する場合と比較して、NLOS物体の局所化と識別性能にどのような影響を与えるか？
RQ5微調整やキャリブレーションなしに、合成学習データから実世界NLOS画像化にどの程度一般化できるか？

主な発見

本手法は、12cmの幅を持つ隠れた物体を2次元で1.7cmの平均精度で局所化でき、ベースライン手法を顕著に上回った。
物体分類精度は87.7%に達し、33.3%のランダムベースラインを大きく上回り、有効なデータ駆動型認識を示した。
可視シーンは、幾何的不連続性の近くに限らず、広範な領域にわたり、隠れた物体に関する重要な情報を保持しており、従来の仮定に反する。
コーナーの先（領域1）を除外すると分類精度は51%に低下するが、含めると性能が向上し、その重要性を裏付けた。
実世界の同期動画ペアで訓練された生成モデルは、最小限の監視のもとで、新たなカメラ視点から隠れたシーンの写真並みのビューを効果的に再構成できた。
システムはリアルタイムで動作し、1台の一般消費者用フラッシュとカメラセットアップで、局所化、識別、再構成の複数タスクを同時に実行できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。