QUICK REVIEW

[論文レビュー] Relighting Humans: Occlusion-Aware Inverse Rendering for Full-Body Human Images

Yoshihiro Kanamori, Yuki Endo|arXiv (Cornell University)|Aug 7, 2019

Computer Graphics and Visualization Techniques参考文献 49被引用数 12

ひとこと要約

本論文は、畳み込みニューラルネットワーク（CNN）を用いて、全身の人体画像の自己遮蔽を考慮したリライトを実現する深層学習手法を提案する。アルベド、照明、および1ピクセルあたり9個の球面調和関数（SH）係数を符号化する光輸送マップを推定することで、自己影を含む現実的なリライトを可能にする。主な貢献は、幾何的に整合した少数の合成データセットからのみ、妥当な遮蔽モデリングを達成したことであり、遮蔽を無視する手法に比べて著しくリアルな質を実現した。

ABSTRACT

Relighting of human images has various applications in image synthesis. For relighting, we must infer albedo, shape, and illumination from a human portrait. Previous techniques rely on human faces for this inference, based on spherical harmonics (SH) lighting. However, because they often ignore light occlusion, inferred shapes are biased and relit images are unnaturally bright particularly at hollowed regions such as armpits, crotches, or garment wrinkles. This paper introduces the first attempt to infer light occlusion in the SH formulation directly. Based on supervised learning using convolutional neural networks (CNNs), we infer not only an albedo map, illumination but also a light transport map that encodes occlusion as nine SH coefficients per pixel. The main difficulty in this inference is the lack of training datasets compared to unlimited variations of human portraits. Surprisingly, geometric information including occlusion can be inferred plausibly even with a small dataset of synthesized human figures, by carefully preparing the dataset so that the CNNs can exploit the data coherency. Our method accomplishes more realistic relighting than the occlusion-ignored formulation.

研究の動機と目的

単一画像リライトにおける自己影の欠如、特にわきの下や股の間のような空洞部における現実性の欠如を是正すること。
球面調和関数（SH）の照明定式化に光の遮蔽を組み込むことで、全身の人体画像に対する物理的に妥当なリライトを実現すること。
幾何的に整合された合成データセット（3D人体モデル）を用いて、CNNベースの逆レンダリングシステムを学習し、遮蔽を考慮した光輸送マップを推定すること。
推定された光輸送ベクトルとSH照明係数のドット積を計算することで、高速かつ効率的なリライトを実現すること。

提案手法

本手法は、1枚のマスク付き人体画像から3つの要素をCNNで推定する：アルベドマップ、照明のSH係数、および1ピクセルあたり9個のSH係数を持つ光輸送マップ（遮蔽を符号化）。
光輸送マップは、事前計算された放射率トランスファーベクトル（PRT）のSH定式化に基づき、遮蔽およびコサインローブ効果をSH係数として符号化する。
スキャンされたモデルや商用データセットから得られた3D人体モデルの合成データセットを用いて教師あり学習を実施し、人物の幾何的整合性を高める。
予測画像と真値画像の差を最小化するため、L1損失と知覚的損失を用いてエンドツーエンドでネットワークを学習する。
リライトは、光輸送ベクトルとSH照明係数のドット積を計算し、その後アルベドマップとのチャネルワイド乗算を行うことで、効率的に実行される。
マスクからのシルエットと形状の事前知識を活用し、限られた学習データでも遮蔽などの幾何的詳細を推定できる。

実験結果

リサーチクエスチョン

RQ1深層CNNは、少数の合成データセットからのみ、全身の人体画像における光の遮蔽を推定できるか？
RQ2SHに基づく光輸送定式化は、わきの下や股の間のような空洞部における自己影を効果的にモデル化できるか？
RQ3本ネットワークは、訓練データに含まれない座標（例：座っているポーズ）にも一般化できるか？
RQ4本手法は、学習データに存在しない非日常的な照明条件下でも良好に動作するか？

主な発見

本手法は、わきの下や股の間のような空洞部において、現実的な自己影を伴う妥当なリライトを実現し、遮蔽を無視するベースライン手法に比べて視覚的品質が著しく優れている。
数百体の3D人体モデルしか使用していないにもかかわらず、CNNはわきの下、股の間、衣類のしわなどの遮蔽を的確に捉えた光輸送マップを推定できる。
1024×1024画像あたり0.43秒という高速な推論時間であり、リアルタイムリライトアプリケーションに適している。
訓練データに含まれない座っているポーズに対しても、良好な一般化性能を示しており、シルエットから強力な形状事前知識が学習されていると示唆される。
極めて非日常的な照明条件下では失敗する。これは、最近隣の学習照明に近似して再構築する傾向があるため、アルベドマップにアーチファクトが生じる。
自己教師あり微調整は、光輸送マップの次元が1ピクセルあたり9チャンネルという高次元性のため、教師なしではネットワークが崩壊し、不安定になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。