QUICK REVIEW

[論文レビュー] Unsupervised Visual Attribute Transfer with Reconfigurable Generative Adversarial Networks

Taek‐Soo Kim, Byoungjip Kim|arXiv (Cornell University)|Jul 31, 2017

Generative Adversarial Networks and Image Synthesis参考文献 17被引用数 30

ひとこと要約

本稿では、ペaired学習データが不要なインスタンスレベルの属性転送を可能にする再構成可能な生成対抗ネットワークを用いた教師なし視覚的属性転送手法を提案する。ドメインレベルの GAN に基づく画像翻訳とバックトランスファーレース、属性一貫性の目的関数を組み合わせることで、参照画像からソース画像へ特定の属性詳細（例：髪の色、ボブヘア、笑顔）を転送しつつ、アイデンティティと非ターゲット属性を保持する。本手法は、1つの統合フレームワーク内で、強力でマルチプレックスかつ再構成可能な属性転送を実現する。

ABSTRACT

Learning to transfer visual attributes requires supervision dataset. Corresponding images with varying attribute values with the same identity are required for learning the transfer function. This largely limits their applications, because capturing them is often a difficult task. To address the issue, we propose an unsupervised method to learn to transfer visual attribute. The proposed method can learn the transfer function without any corresponding images. Inspecting visualization results from various unsupervised attribute transfer tasks, we verify the effectiveness of the proposed method.

研究の動機と目的

既存の画像対画像翻訳手法がペア学習データを必要とし、インスタンスレベルの属性転送ができないという制限を解消すること。
密なアノテーションやペアアノテーションを一切使用せず、ドメインレベルのラベル（例：「ボブヘアあり」「金髪」）のみを用いて、教師なしでインスタンスレベルの視覚的属性転送を可能にすること。
複数の属性を同時に転送できる、1つの再構成可能なモデルを構築することにより、各属性ごとに別々のモデルを学習する必要を回避すること。
バックトランスファーと属性一貫性の目的関数を導入することで、転送中にアイデンティティと非ターゲット属性を保持すること。

提案手法

異なる属性転送タスクに応じて動的に再構成可能な、再構成可能な GAN アーキテクチャを採用する。
転送された画像がターゲットドメインの実画像と区別できないようにするため、ドメインレベルの GAN 損失を用いる。
バックトランスファー目的関数により、転送された属性が元のソース画像に戻せるようにし、アイデンティティと非ターゲット属性を保持する。
属性一貫性目的関数により、結果画像から参照画像へ属性を再び転送することで、元の参照画像の属性詳細が回復されることを保証する。
属性（例：髪の色、ボブヘア、笑顔）が独立した高次元特徴としてモデル化される、分離された属性空間を採用する。
敵対的損失、サイクル一貫性損失、属性一貫性損失を組み合わせて、エンドツーエンドに学習することで、教師なしでインスタンスレベルの転送を実現する。

実験結果

リサーチクエスチョン

RQ1ペア学習データや密な属性アノテーションがなくても、視覚的属性転送を達成できるか？
RQ21つのモデルがアイデンティティと非ターゲット属性を保持しながら、インスタンスレベルの属性転送を実行できるか？
RQ3統合的かつ再構成可能なフレームワーク内で、複数の属性を同時に変更するマルチプレックス属性転送が可能か？
RQ4顔の属性、物体タイプ、3D物体の角度など、多様な属性タイプにわたって、モデルの汎用性はどの程度高いか？

主な発見

本モデルは、ペア画像や密なアノテーションを一切使用せず、ドメインレベルのラベルのみに依存して、インスタンスレベルの視覚的属性転送を成功裏に実行した。
t-SNE 視覚化により、学習された属性ベクトル（例：「ボブヘア」、「笑顔」、「髪の色」）が明確に分離されており、意味的に意味のあるものであることが確認された。
髪の色を黒、茶、金髪に変更するなど、高品質なドメインレベルの転送を達成した。また、顔から車に物体タイプを転送する際も、正しい方位角を保持した正確な転送が可能であった。
本モデルはマルチプレックス属性転送を実現し、1回のフォワードパスで複数の属性（例：髪の色と笑顔）を同時に変更することができた。
バックトランスファーと属性一貫性の目的関数により、アイデンティティ保持と属性の忠実度が顕著に向上したことが、多様なデータセットにおける定性的な結果から明らかになった。
本フレームワークは、CelebA や 3D 車両・顔データセット、ファッション属性転送タスクなど、多様なドメインにわたり、強固な性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。