Skip to main content
QUICK REVIEW

[論文レビュー] Neural Face Editing with Intrinsic Image Disentangling

Zhixin Shu, Ersin Yumer|arXiv (Cornell University)|Apr 13, 2017
Face recognition and analysis参考文献 30被引用数 36
ひとこと要約

本稿では、ネットワーク内に物理的ベースの画像形成モデルを組み込んだエンドツーエンドのGANベースのフレームワークを提案する。この手法により、野生の画像からアルベド、法線、照明、アルファマットといった内在的顔属性を分離可能となる。形状、アルベド、照明に関する事前知識を強制することで、再照明、表情操作、加齢変化といった意味的に明確な制御可能な編集が可能となり、従来手法と比較して優れた現実性とアイデンティティ保持性を実現する。

ABSTRACT

Traditional face editing methods often require a number of sophisticated and task specific algorithms to be applied one after the other --- a process that is tedious, fragile, and computationally intensive. In this paper, we propose an end-to-end generative adversarial network that infers a face-specific disentangled representation of intrinsic face properties, including shape (i.e. normals), albedo, and lighting, and an alpha matte. We show that this network can be trained on "in-the-wild" images by incorporating an in-network physically-based image formation module and appropriate loss functions. Our disentangling latent representation allows for semantically relevant edits, where one aspect of facial appearance can be manipulated while keeping orthogonal properties fixed, and we demonstrate its use for a number of facial editing applications.

研究の動機と目的

  • 複雑でタスク特化型のパイプラインに依存し、一般化能力に欠ける従来の顔編集手法の限界を解消すること。
  • 制約のない野生の画像から、分離可能でコン act かつ意味的な顔の外見の潜在多様体を学習すること。
  • 個々の内在的成分を操作することで、再照明、表情変更、加齢変化といったエンドツーエンドの意味的に明確な編集を可能にし、他の成分を保持すること。
  • ネットワークアーキテクチャ内に微分可能で物理的ベースのレンダリングモジュールを組み込むことで、分離性と現実性を向上させること。
  • 3Dの監視情報や高価なデータ収集を必要とせず、弱い監視と統計的事前知識を用いて編集を可能とすること。

提案手法

  • エンコーダ・デコーダ構造にボトルネックを備えたネットワークを採用し、アルベド、法線、照明(球面調和関数)、アルファマットといった顔属性の分離された潜在表現を学習する。
  • ネットワーク内にフォワードレンダリングモジュールを設け、画像形成の物理に基づく微分可能なシェーディングモデルを用いて、推定された内在的成分から画像を再構築する。
  • 統計的事前知識を強制する:法線にはモーファブルモデル事前知識、アルベドにはRetinexベースの事前知識、照明には低周波数の球面調和関数モデルを適用する。
  • 再構築画像に adversarial loss を適用することで、知覚的品質と現実性を向上させる。
  • バッチ単位のホワイトシェーディング(BWS)損失を導入し、色の整合性を保ち、アルベドと照明・シェーディングの分離性を向上させる。
  • アルファマットを明示的に予測することで、顔を任意の背景から分離し、前面のみをターゲット編集可能にするとともに、背景の詳細を保持する。

実験結果

リサーチクエスチョン

  • RQ13Dの監視なしに、野生の画像から、分離可能で物理的根拠を持つ顔の内在的属性表現を深層生成モデルが学習可能か?
  • RQ2ネットワーク内に微分可能なレンダリングを組み込むことで、分離性が向上し、リアルで意味的に明確な編集が可能になるか?
  • RQ3モーファブルモデル、Retinex、球面調和関数といった物理的事前知識の組み合わせが、顔属性の分離にどの程度有効か?
  • RQ4学習された潜在空間が、再照明、表情編集、加齢変化といった多様な編集タスクを、単純な潜在ベクトルのトレースや操作によってサポートできるか?
  • RQ5アイデンティティの保持とリアルな編集の両面で、標準的なオートエンコーダベースの手法を上回る性能を示すか?

主な発見

  • モデルは、制約のない野生の画像に対しても、高い知覚的品質と強固なアイデンティティ保持性を実現しながら、分離された内在的成分から顔画像を再構築できている。
  • 再照明は、ソース画像の照明ベクトルをターゲット画像に転送することで実現され、ターゲットのアルベド、法線、詳細が保持されたまま、現実的な照明転送が達成されている。
  • アルベドおよび法線成分に沿った潜在空間のトレースによる表情編集により、自然な笑顔が得られ、トレースの正則化パrameter λ を調整することで、より強い表情も実現可能である。
  • 加齢変化は、年齢の高い顔に対応するモードにアルベドおよび法線の潜在空間をトレースすることで効果的にシミュレートされ、ポーズ、眼鏡、照明を保持したまま説得力のある加齢進行が得られている。
  • バッチ単位のホワイトシェーディング(BWS)損失の導入により、特にアルベドと照明の分離性が顕著に向上しており、定性的な比較とアブレーションスタディで裏付けられている。
  • 同じアーキテクチャと重みを用いて、多様な編集タスクに一般化可能であり、学習された分離可能で意味的な多様体の強靭さと表現力が示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。