Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial Inversion: Inverse Graphics with Adversarial Priors

Hsiao-Yu Fish Tung, Adam W. Harley|arXiv (Cornell University)|May 31, 2017
Face recognition and analysis参考文献 2被引用数 10
ひとこと要約

この論文では、アノテーションのないデータや偏ったデータから逆画像処理を学習する弱教師付きフレームワークである敵対的逆画像ネットワーク(AIGNs)を提案する。入力観測値と既知の事前知識の両方に予測を一致させることで、AIGNsは3次元人体ポーズ推定および構造推定において完全教師ありモデルを上回り、学習されたバイアスを用いた制御可能な顔画像操作を可能にする。

ABSTRACT

Researchers have developed excellent feed-forward models that learn to map images to desired outputs, such as to the images' latent factors, or to other images, using supervised learning. Learning such mappings from unlabelled data, or improving upon supervised models by exploiting unlabelled data, remains elusive. We argue that there are two important parts to learning without annotations: (i) matching the predictions to the input observations, and (ii) matching the predictions to known priors. We propose Adversarial Inverse Graphics networks (AIGNs): weakly supervised neural network models that combine feedback from rendering their predictions, with distribution matching between their predictions and a collection of ground-truth factors. We apply AIGNs to 3D human pose estimation and 3D structure and egomotion estimation, and outperform models supervised by only paired annotations. We further apply AIGNs to facial image transformation using super-resolution and inpainting renderers, while deliberately adding biases in the ground-truth datasets. Our model seamlessly incorporates such biases, rendering input faces towards young, old, feminine, masculine or Tom Cruise-like equivalents (depending on the chosen bias), or adding lip and nose augmentations while inpainting concealed lips and noses.

研究の動機と目的

  • ペア化されていないアノテーションが利用できない状況での逆画像処理の学習に取り組む。
  • 事前知識と再構成フィードバックを用いて、未ラベルデータを統合することで教師ありモデルの性能を向上させる。
  • 推論プロセスにバイアスを埋め込むことで、制御可能な画像生成と操作を可能にする。
  • レンダリングフィードバックと分布マッチングを組み合わせた弱教師付きフレームワークを構築し、予測を根拠づける。

提案手法

  • AIGNsは生成ネットワークを用いて入力画像から潜在要因を予測し、それらを再び画像空間にレンダリングする。
  • モデルは、レンダリング出力と入力画像の間の再構成損失を最小化することで一貫性を強制する。
  • 敵対的ディスクライマーは、予測された要因が未ラベルデータの集まりから得られる真値要因の分布と一致することを保証する。
  • 訓練目的はピクセルレベルの再構成損失と敵対的損失を組み合わせ、予測を観測値と事前知識の両方に一致させる。
  • 特定の属性(例:年齢、性別、顔貌特徴)の事前分布を条件として与えることで、分離可能な推論をサポートする。
  • 推論時に事前分布にバイアスを注入することで、顔を若返らせたり、より男性らしくしたりするなど、制御可能な画像変換を実現する。

実験結果

リサーチクエスチョン

  • RQ1再構成と分布マッチングを組み合わせることで、ペア化されていないか弱教師付きのデータから逆画像処理を学習できるか?
  • RQ2敵対的事前知識を組み込むことで、教師ありベースラインと比較して3次元人体ポーズおよび構造推定における一般化性能がどのように向上するか?
  • RQ3AIGNsは、学習データからのバイアスを効果的に学習し、顔画像操作における制御可能な画像生成に応用できるか?
  • RQ4ペア化された監視情報が不要な状況でも、AIGNsは多様な逆画像処理タスクにどの程度一般化できるか?
  • RQ5微分可能なレンダリングと敵対的訓練を統合することで、分離可能な表現学習がどの程度向上するか?

主な発見

  • AIGNsは、ペア化されていないデータで学習しても、3次元人体ポーズ推定および3次元構造/自己移動推定において完全教師ありモデルを上回る性能を達成する。
  • モデルは学習データからのバイアスを効果的に組み込み、年齢変更、性別変換、またはトム・クルーズのような顔の生成といった制御可能な顔画像変換を実現する。
  • 予測要因の分布を真値の事前知識と一致させることで、未観測データに対する一般化性能と耐障害性が向上する。
  • 高品質なスーパーレンダリングおよびインpaintingが、例として隠れた領域に口や鼻を追加するなど、制御可能な属性拡張を伴って可能になる。
  • 敵対的事前知識を用いることで、ピクセルレベルの損失のみに依存するモデルと比較して、再構成の正確性と分離性が顕著に向上する。
  • AIGNsは、事前知識とレンダリングフィードバックによる弱教師付き学習が、逆画像処理タスクにおいて強教師付き学習と同等の性能を達成できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。