QUICK REVIEW

[論文レビュー] Unsupervised Learning of Object Landmarks through Conditional Image Generation

Tomáš Jakab, Ankush Gupta|arXiv (Cornell University)|Jun 20, 2018

Face recognition and analysis被引用数 104

ひとこと要約

本研究は、2つの画像（ソースとターゲット）を条件として画像生成を行い、几何学に焦点を当てたボトルネックを課して安定したキーポイントを生成することで、監視なしでランドマーク検出器を学習させ、顔・体・3Dオブジェクトに跨る強力な無監督ランドマーク検出を達成する。

ABSTRACT

We propose a method for learning landmark detectors for visual objects (such as the eyes and the nose in a face) without any manual supervision. We cast this as the problem of generating images that combine the appearance of the object as seen in a first example image with the geometry of the object as seen in a second example image, where the two examples differ by a viewpoint change and/or an object deformation. In order to factorize appearance and geometry, we introduce a tight bottleneck in the geometry-extraction process that selects and distils geometry-related features. Compared to standard image generation problems, which often use generative adversarial networks, our generation task is conditioned on both appearance and geometry and thus is significantly less ambiguous, to the point that adopting a simple perceptual loss formulation is sufficient. We demonstrate that our approach can learn object landmarks from synthetic image deformations or videos, all without manual supervision, while outperforming state-of-the-art unsupervised landmark detectors. We further show that our method is applicable to a large variety of datasets - faces, people, 3D objects, and digits - without any modifications.

研究の動機と目的

変形可能オブジェクトカテゴリ（顔、身体、3Dオブジェクト）に対する手作業による注釈なしでランドマーク検出を動機づける。
外観と幾何を分解してランドマーク表現を誘導する条件付き画像生成フレームワークを提案する。
厳密な幾何ボトルネックが多様なデータセットで意味のあるランドマークを生み出すことを示す。
敵対的学習なしで高品質な再構成を達成するのに知覚的損失が十分であることを示す。
学習されたランドマークの一般性と頑健性を確立するために複数のデータセットで評価する。

提案手法

ソース画像と蒸留された幾何表現からターゲット画像を再構成する2画像条件付き生成器を導入する。
ターゲット画像からK個の空間ヒートマップを出力するヒートマップボトルネックPhiを用い、これらをソフトに周辺化してランドマーク座標を生成する。
ヒートマップをガウス様のランドマーク表現に変換して生成器に入力する。
リアルなターゲットと生成されたターゲットとの間の知覚再構成損失を最小化してPhiと画像生成器Psiを共同訓練する。
効率のために分離可能な実装を採用し、再構成を導くために事前学習済みネットワーク（例：VGG-19）に基づく知覚損失を用いる。
対応関係や光学フローを用いず、合成変形や生データの動画の学習が可能であることを示す。

実験結果

リサーチクエスチョン

RQ1几何に焦点を合わせるように条件付き画像生成タスクを制約することで、監督なしのランドマーク検出器を学習できるか？
RQ2監督なしで学習したランドマークは、顔、人間の体、3Dオブジェクトの間でどの程度一般化するか？
RQ3ランドマーク様ボトルネックへ情報の流れを制限することで、退化的解を防ぎ、意味のある幾何エンコードを可能にするか？
RQ42画像条件付き生成設定において、高品質な再構成に知覚損失は十分か？

主な発見

Model	K	MAFL (normalized % MSE)	AFLW (normalized % MSE)
我々の手法、loss-net: 自己監視	10	3.19	6.86
我々の手法、loss-net: 自己監視	30	2.58	6.31
我々の手法、loss-net: 自己監視	50	2.54	6.33
我々の手法、loss-net: 監督あり	10	3.32	6.99
我々の手法、loss-net: 監督あり	30	2.63	6.39
我々の手法、loss-net: 監督あり	50	2.59	6.35

条件付き生成フレームワークによって学習された無監督ランドマークは、変形やアイデンティティの変化を通じて意味的に意味のある顔部位や体の特徴を追跡する。
この手法はMAFLおよびAFLWで、教師ありおよび従来の無監督手法と比較して競争力のあるまたは優れたランドマーク検出性能を示し、サンプル効率の顕著な向上を提供する。
自己教師付き知覚損失と30個の無監督ランドマークを用いると、CelebAで訓練した場合、5個の手動ラベルランドマークへの回帰はMAFLで強い精度を達成（正規化MSE 2.58%、AFLWで6.31%正規化MSE）。VoxCelebデータではドメインギャップがあるものの頑健性を示す。
このアプローチは、タスク固有の変更なしで、顔、人間、3Dオブジェクト、数字など複数のデータタイプのランドマークを学習することをサポートする。
アブレーション研究は、キーポイントボトルネックを除去するかピクセルベースの損失に切り替えるとランドマークの品質が劣化すること、またこの設定では知覚損失が adversarial の有無に関係なくL1/L2より優れていることを示す。
外観と幾何の分離が現れる：ソース画像がスタイルを提供し、ターゲット画像が生成出力の幾何を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。