Skip to main content
QUICK REVIEW

[論文レビュー] Content and Colour Distillation for Learning Image Translations with the Spatial Profile Loss

M. Saquib Sarfraz, Constantin Seibold|arXiv (Cornell University)|Aug 1, 2019
Generative Adversarial Networks and Image Synthesis被引用数 4
ひとこと要約

本稿では、判別器や知覚ネットワークを用いずに、源画像から標的画像へコンテンツおよび色の情報を直接蒸留する、新規の空間的プロファイル損失を提案する。この手法により、敵対的生成対抗ネットワーク(GAN)を用いない画像変換が可能となり、画像間変換、超解像、メイクアップ転送の分野で最先端の結果を達成する。エンドツーエンド最適化により、形状/コンテンツおよびスタイル/色の分布を学習することで実現される。

ABSTRACT

Generative adversarial networks has emerged as a defacto standard for image translation problems. To successfully drive such models, one has to rely on additional networks e.g., discriminators and/or perceptual networks. Training these networks with pixel based losses alone are generally not sufficient to learn the target distribution. In this paper, we propose a novel method of computing the loss directly between the source and target images that enable proper distillation of shape/content and colour/style. We show that this is useful in typical image-to-image translations allowing us to successfully drive the generator without relying on additional networks. We demonstrate this on many difficult image translation problems such as image-to-image domain mapping, single image super-resolution and photo realistic makeup transfer. Our extensive evaluation shows the effectiveness of the proposed formulation and its ability to synthesize realistic images. [Code release: this https URL]

研究の動機と目的

  • 画像変換タスクにおいて、判別器や知覚ネットワークなどの補助ネットワークへの依存を排除すること。
  • 源画像から標的画像へのコンテンツおよび色の分布を直接蒸留することで、生成画像の品質と現実性を向上させること。
  • ピクセル単位の損失に空間的プロファイル正則化を組み合わせるだけで、画像変換生成器の有効な訓練を可能とすること。
  • ピクセルベースの標準損失が高レベルの意味的特徴やスタイル特性を捉えきれないという制限を克服すること。
  • 本手法の有効性を、多様で挑戦的な画像変換ベンチマークにおいて実証すること。

提案手法

  • 本手法は、コンテンツおよび色の空間的分布に基づいて、源画像と標的画像の類似度を計算する空間的プロファイル損失を導入する。
  • 構造的レイアウトと色彩的属性を保持するような共同表現を学習することで、コンテンツおよび色を蒸留する。
  • 損失関数は、実際の源画像と生成された標的画像の空間的プロファイルの乖離を最小化するように設計されている。
  • アプローチは生成器の出力に直接作用し、追加のネットワークを必要とせずにエンドツーエンド学習を可能にする。
  • 空間的プロファイル損失は標準的なバックプロパゲーションを用いて最適化され、既存のGANフレームワークと互換性を持つ。
  • 本手法により、敵対的または知覚的監視を必要とせず、再構成損失のみで訓練が可能になる。

実験結果

リサーチクエスチョン

  • RQ1判別器や知覚ネットワークを用いずに、画像変換を効果的に訓練できるか?
  • RQ2標準損失と比較して、空間的プロファイル損失はコンテンツおよび色の分布をどれほど的確に捉え、転送できるか?
  • RQ3提案手法は、超解像やメイクアップ転送などの多様な画像変換タスクに一般化可能か?
  • RQ4空間的コンテンツおよび色特徴の蒸留が、画像の現実性および忠実性に与える影響は何か?
  • RQ5単純な学習ダイナミクスと低いアーキテクチャの複雑さで、競争力のある性能を達成できるか?

主な発見

  • 提案手法は、判別器や知覚ネットワークを一切使用せずに、画像間変換で最先端の性能を達成する。
  • 空間的プロファイル損失により、単一画像超解像において高精細な画像合成が可能となり、よりシャープなテクスチャとより自然なディテールが得られる。
  • フォトリアリスティックなメイクアップ転送において、顔のアイデンティティを保持しながら微細な色調および形状の変化を的確に転送する。
  • エッジから画像への変換、色取り戻し、ドメイン適応などの多様なドメインにわたり、強力な一般化性能を示す。
  • 定量的評価では、標準損失を用いたベースライン手法と比較して、FIDおよびLPIPS指標で顕著な改善が得られた。
  • より単純な学習、低い計算コスト、少ないハイパーパrameterで、競争力のある結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。