QUICK REVIEW

[論文レビュー] Structural Decompositions for End-to-End Relighting.

Thomas Nestmeyer, Iain Matthews|arXiv (Cornell University)|Jun 7, 2019

Computer Graphics and Visualization Techniques参考文献 37被引用数 3

ひとこと要約

本稿では、顔の画像を拡散成分と残留成分に分解することで、正確な再照明を実現するエンドツーエンドのディープラーニングフレームワークを提案する。物理に基づく画像形成モデルを用いて内在的画像成分をモデル化し、非拡散的効果を残留項として予測することで、複雑な照明条件や挑戦的なポーズ下でも正確で一般化可能な再照明を達成した。32の制御光源を備えた21名の被験者からなるライトステージデータセットを用いて検証された。

ABSTRACT

Relighting is an essential step in realistically transferring objects from a captured image into another environment. For example, authentic telepresence in Augmented Reality requires faces to be displayed and relit consistent with the observer's scene lighting. We investigate end-to-end deep learning architectures that both de-light and relight an image of a human face. Our model decomposes the input image into intrinsic components according to a diffuse physics-based image formation model. We enable non-diffuse effects including cast shadows and specular highlights by predicting a residual correction to the diffuse render. To train and evaluate our model, we collected a portrait database of 21 subjects with various expressions and poses. Each sample is captured in a controlled light stage setup with 32 individual light sources. Our method creates precise and believable relighting results and generalizes to complex illumination conditions and challenging poses, including when the subject is not looking straight at the camera.

研究の動機と目的

拡張現実における人間の顔の写実的再照明を可能にするために、内在的画像成分を分離する学習を行うこと。
再照明中にキャストシャドウやスペキュラー・ハイライトなどの非拡散的効果を保持する課題に対処すること。
複雑な照明条件および非正面の顔のポーズに一般化できる手法を開発すること。
1人あたり32の光源を持つ大規模で制御されたライトステージデータセットを用いてモデルを訓練および評価すること。
中間成分の明示的教師信号を必要とせずに、デライトニングおよびリライトティングのエンドツーエンド学習を達成すること。

提案手法

モデルは、物理に基づく画像形成モデルを用いて入力画像を拡散成分と残留成分に分解する。
キャストシャドウやスペキュラー・ハイライトなどの非拡散的効果を補正する残留項を予測する。
大規模なポートレートデータベースを用いて、エンドツーエンドでデライトニングとリライトティングを同時に最適化するようにネットワークを訓練する。
ネットワークは、21名の被験者に対して32光源のライトステージ設定を活用し、多様な照明条件を捉える。
物理的画像形成原理との整合性を保つために、微分可能レンダリングパイプラインを用いる。
残留予測により、挑戦的な照明およびポーズの変動に対しても高精細な再照明が可能になる。

実験結果

リサーチクエスチョン

RQ1ディープラーニングモデルは、エンドツーエンドの再照明に適した物理的に意味のある成分に顔の画像を正確に分解できるか？
RQ2再照明中にスペキュラー・ハイライトやキャストシャドウなどの非拡散的効果をどの程度正確に保持できるか？
RQ3複雑な照明条件および非正面の顔のポーズにどの程度一般化できるか？
RQ4中間成分の明示的教師信号を必要とせずに、写実的な再照明を達成できるか？
RQ5残留補正機構は、純粋に拡散的レンダリングと比較して、再照明の忠実度をどの程度向上させるか？

主な発見

本モデルは、多様な照明条件および顔のポーズ下で、正確で信憑性のある再照明結果を達成した。
残留補正の導入により、スペキュラー・ハイライトやキャストシャドウなどの非拡散的効果を保持することで、忠実度が顕著に向上した。
被験者がカメラを直接向いていない挑戦的なポーズに対しても、効果的に一般化した。
21名の被験者から得られた、32の制御光源下でのデータセットにおいて、本モデルは頑健な性能を示した。
エンドツーエンドの訓練により、中間成分の教師信号を必要とせず、正確なデライトニングとリライトティングが可能になった。
拡散成分と残留成分への分解により、一貫性があり物理的に妥当な再照明結果が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。