Skip to main content
QUICK REVIEW

[論文レビュー] RelGAN: Multi-Domain Image-to-Image Translation via Relative Attributes

Po-Wei Wu, Yujing Lin|arXiv (Cornell University)|Aug 20, 2019
Generative Adversarial Networks and Image Synthesis参考文献 29被引用数 48
ひとこと要約

RelGAN は多ドメイン画像編集のための相対属性を導入し、すべての属性を指定することなく連続的でターゲット指向の編集を可能にし、従来のターゲット属性手法より現実感と補間性を向上させる。

ABSTRACT

Multi-domain image-to-image translation has gained increasing attention recently. Previous methods take an image and some target attributes as inputs and generate an output image with the desired attributes. However, such methods have two limitations. First, these methods assume binary-valued attributes and thus cannot yield satisfactory results for fine-grained control. Second, these methods require specifying the entire set of target attributes, even if most of the attributes would not be changed. To address these limitations, we propose RelGAN, a new method for multi-domain image-to-image translation. The key idea is to use relative attributes, which describes the desired change on selected attributes. Our method is capable of modifying images by changing particular attributes of interest in a continuous manner while preserving the other attributes. Experimental results demonstrate both the quantitative and qualitative effectiveness of our method on the tasks of facial attribute transfer and interpolation.

研究の動機と目的

  • バイナリのターゲット属性ベースの多ドメイン翻訳の制限を、相対属性の変化を用いて解決する。
  • 非ターゲット属性を保ちながら、属性編集の連続的で細かい制御を可能にする。
  • 専用の識別器と損失項を通じて、元画像と編集後画像の間の補間品質を改善する。
  • 複数の高品質データセットに対する顔属性転送、再構成、補間での有効性を示す。

提案手法

  • n次元属性ベクトル a でドメインを表現し、相対属性 v = âˆhat a - a を定義して望ましい変化を指定する。
  • 三つの識別器を備えた単一の生成器 G を (x, v) 条件付きで使用し、Real(無条件リアリズム)、Match((x, v, x') が翻訳と一致するか)、Interp(補間の度合いを予測する)という構成。
  • 現実性(Real)、条件付き一致(Match)を実データと誤ったトリプレットを用いた対立的損失、補間損失(Interp)による滑らかな属性変化の正則化という対立的損失で訓練する。
  • 再構成正則化を課す:x と G(G(x, v), -v) 間の cycle- reconstruction L1 損失、v = 0 の場合の自己再構成損失で同一性と背景のディテールを保持する。
  • 補間識別器を組み込み、G(x, αv) の補間度 α を予測させて滑らかで現実的な遷移を促進する。
  • 直交正規化項を採用し、LSGAN-GP 安定化子で訓練する;ジェネレータにはスイッチャブル正規化を使用する。

実験結果

リサーチクエスチョン

  • RQ1相対属性は、マルチドメイン画像翻訳において二値のターゲット属性と比べてより細かく連続的な属性制御を提供できるか。
  • RQ2モデルはどのようにして関心のある属性のみを選択的に変更し、未変更の属性と全体的な同一性を保つことができるか。
  • RQ3補間識別器の追加は属性補間の品質と滑らかさを改善するか。
  • RQ4RelGAN が顔属性転送、再構成、補間において多様なデータセットでどのような実証的利点を示すか。

主な発見

  • RelGAN は CelebA、CelebA-HQ、FFHQ の設定で StarGAN および AttGAN と比較して最も低い Fréchet Inception Distance (FID) を達成し、視覚品質が高いことを示す。
  • 生成画像の属性分類精度は複数の属性で RelGAN が最高となり、翻訳属性の忠実度が高いことを示す。
  • RelGAN は未変更属性を従来手法よりも効果的に保持し、元画像と編集後画像の間の補間がより滑らかで現実的であることを示す。
  • アブレーション研究では、全損失(Real + Match + Cycle/Self + Interp)と直交正則化を含む場合が最良の再構成と補間結果をもたらす。
  • ユーザ調査はほとんどの属性転送と再構成タスクで RelGAN を支持し、複数タスクで全体的な好評を得ている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。