Skip to main content
QUICK REVIEW

[論文レビュー] Challenges in Disentangling Independent Factors of Variation

Attila Szabó, Qiyang Hu|arXiv (Cornell University)|Nov 7, 2017
Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 32
ひとこと要約

本稿では、変化した要因(その大きさは不明)のみがラベル付けされた画像ペアを用いて、独立した変動要因を分離する弱教師付き自己符号化器を提案する。『参照のあいまいさ』—同一の要因が異なる特徴にマッピングされる可能性—を根本的な制限要因として特定しつつも、実験的に、敵対的正則化と適切な次元制御を組み合わせることで、ShapeNetなどのデータセット間で属性を効果的に転送できることを示している。

ABSTRACT

We study the problem of building models that disentangle independent factors of variation. Such models could be used to encode features that can efficiently be used for classification and to transfer attributes between different images in image synthesis. As data we use a weakly labeled training set. Our weak labels indicate what single factor has changed between two data samples, although the relative value of the change is unknown. This labeling is of particular interest as it may be readily available without annotation costs. To make use of weak labels we introduce an autoencoder model and train it through constraints on image pairs and triplets. We formally prove that without additional knowledge there is no guarantee that two images with the same factor of variation will be mapped to the same feature. We call this issue the reference ambiguity. Moreover, we show the role of the feature dimensionality and adversarial training. We demonstrate experimentally that the proposed model can successfully transfer attributes on several datasets, but show also cases when the reference ambiguity occurs.

研究の動機と目的

  • 変化した要因(その大きさは不明)のみが分かっている弱教師付きデータを用いて、画像データにおける独立した変動要因を分離する課題に対処すること。
  • 弱教師付き分離における根本的制限、特に同一の要因が異なる特徴にマッピングされる可能性のある『参照のあいまいさ』のリスクを調査すること。
  • 高次元特徴空間に起因するショートカット問題を緩和するため、敵対的訓練を組み込んだ新しい自己符号化器ベースの手法を開発すること。
  • 完全な監督なしでも、視点やオブジェクトタイプなどの属性を画像間で効果的に転送できることを実証すること。
  • 特徴次元数と正規化手法の影響が分離性能および一般化性能に与える影響を分析すること。

提案手法

  • 弱いラベルが、2つのサンプル間でどの単一の要因が変化したかを示す画像ペアおよびトリプレットを用いて自己符号化器を学習し、同じ要因変化を示す画像同士の特徴類似性を強制する。
  • 高次元特徴空間に起因するショートカット解を防ぐために、潜在空間を正則化する敵対的訓練(AE+GAN)を導入する。
  • 2ストリームアーキテクチャを採用:1つのストリームはコンテンツ(N_c)を符号化し、もう1つのストリームは視点または属性(N_v)を符号化する。後者が分離の焦点となる。
  • t-SNE可視化と最近傍分類を用いて分離品質を評価し、定量的指標として平均平均適合度(mAP)を用いる。
  • バッチ正規化、インスタンス正規化、および正規化なしの3つの手法をテストし、分離性能と耐性への影響を評価する。
  • 再構成損失を用いて自己符号化器が入力情報を保持することを保証するとともに、相対的な画像比較を通じて弱教師付きラベルが分離を導く。

実験結果

リサーチクエスチョン

  • RQ1変化要因(その大きさは不明)のみがラベル付けされた画像ペアで学習したモデルが、独立した変動要因を効果的に分離できるか?
  • RQ2弱教師付き分離における根本的制限は何か?特に、『参照のあいまいさ』が、アーキテクチャに依存せず一貫した分離を妨げるか?
  • RQ3特徴次元数がモデルの分離能力に与える影響は何か?また、敵対的訓練はその結果生じるショートカット問題を緩和できるか?
  • RQ4標準的な自己符号化器と比較して、提案手法AE+GANはどの程度分離性能および属性転送性能を向上させるか?
  • RQ5正規化手法は、弱教師付き設定における学習済み分離表現の質にどのように影響するか?

主な発見

  • 本稿では、弱教師付き分離における参照のあいまいさが根本的問題であることを形式的に証明している:同じ変動要因であっても、最適化が完璧であっても、異なる特徴にマッピングされる可能性がある。
  • 特徴次元数が高すぎる場合、標準的な自己符号化器はショートカット問題(高次元空間の冗長性を利用)により要因の分離に失敗する。
  • 敵対的訓練(AE+GAN)はショートカット問題を効果的に緩和し、高次元特徴であっても安定した分離を可能にする。
  • 白い背景を用いたShapeNetデータセットでは、t-SNEで可視化した特徴を用いて視点分類のmAPが0.50に達し、強力な分離を示している。
  • ImageNetの背景を用いたより複雑なShapeNetデータセットでは、一部のケースで参照のあいまいさが顕在化(誤った視点転送の例)するが、全体としては依然として良好な一般化性能を示している。
  • コンテンツ分類においてインスタンス正規化がバッチ正規化(mAP 0.20 対 0.08)および正規化なし(mAP 0.13)を上回り、分離の耐性に重要であることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。