Skip to main content
QUICK REVIEW

[論文レビュー] A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation

Alexander H. Liu, Yen‐Cheng Liu|arXiv (Cornell University)|Sep 5, 2018
Digital Media Forensic Detection被引用数 107
ひとこと要約

本論文は、複数のドメインに跨るドメイン不変潜在表現を学習し、マルチドメイン画像翻訳、操作、無監督ドメイン適応を可能にする統一エンコーダ−ジェネレータフレームワークである UFDN を提案する。

ABSTRACT

We present a novel and unified deep learning framework which is capable of learning domain-invariant representation from data across multiple domains. Realized by adversarial training with additional ability to exploit domain-specific information, the proposed network is able to perform continuous cross-domain image translation and manipulation, and produces desirable output images accordingly. In addition, the resulting feature representation exhibits superior performance of unsupervised domain adaptation, which also verifies the effectiveness of the proposed model in learning disentangled features for describing cross-domain data.

研究の動機と目的

  • 複数のデータドメインにまたがる、分離されたドメイン不変表現の学習を動機づける。
  • 単一の統一フレームワーク内でマルチドメインの画像間翻訳と操作を実現する。
  • ドメイン情報を分離しつつデータ復元を維持するため、敵対的学習を活用する。
  • 学習された表現が無監督ドメイン適応において有効であることを実証する。

提案手法

  • 共有エンコーダ E とジェネレータ G を備えた統一特徴分離ネットワーク(UFDN)を提案し、複数ドメインの画像をドメイン不変潜在空間 z に写像する。
  • ドメイン情報を、E に対して敵対的に訓練されるドメイン識別子 D_v を介してドメインベクトル v に分離する。
  • z とドメインベクトルを一緒に G に入力して画像を再構成・翻訳し、領域間合成を可能にする。
  • 画像空間識別子 D_x を用いて現実性を向上させ、合成画像を適切なドメインに分類させることで分離を強化する。
  • VAE に似た再構成損失、特徴空間とピクセル空間の敵対的損失、相互情報風のドメイン分類損失 (L_cls) で最適化する。
  • 定義された勾配に従い、E、G、D_v、D_x の更新を交互に行う学習ダイナミクスを提供する。

実験結果

リサーチクエスチョン

  • RQ1単一の統一モデルが、対となるペアだけでなく多くのドメインに跨るドメイン不変表現を学習できるか。
  • RQ2学習された潜在表現は、ペアデータなしで連続的なマルチドメイン翻訳と操作をサポートできるか。
  • RQ3本手法は画像翻訳を超えた無監督ドメイン適応に利益をもたらすか。
  • RQ4分離が翻訳品質とドメイン適応性能にどのように影響するか。

主な発見

  • UFDN はスケッチ、写真、ペイントのドメイン間でのマルチドメイン画像翻訳を可能にし、補間されたドメインベクトルによる連続的なドメイン移行を実現する。
  • UFDN は競争力のある翻訳品質を達成し、特定の指標(SSIM、MSE、PSNR)で CelebA ベースのタスクに対して E-CDRD を上回り、StarGAN に匹敵する。
  • 数字データの無監督ドメーション適応では、MNIST/USPS/SVHN で最先端またはほぼ最先端の結果を達成。例: MNIST→USPS: 97.13% の精度; SVHN→MNIST: 95.01% の精度。
  • t-SNE 可視化は、ドメインではなく数字クラスごとにドメイン不変表現がクラスタリングされることを示し、分離が成功していることを示唆する。
  • アブレーション研究は、自己監視付き分離(ドメイン敵対 D_v)とピクセル空間の敵対的訓練の両方が、効果的な分離と翻訳に必須であることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。