Skip to main content
QUICK REVIEW

[論文レビュー] Generating Images with Perceptual Similarity Metrics based on Deep Networks

Alexey Dosovitskiy, Thomas Brox|arXiv (Cornell University)|Feb 8, 2016
Generative Adversarial Networks and Image Synthesis被引用数 388
ひとこと要約

論文は DeePSiM を導入する。深層特徴空間での類似性を測定する損失関数ファミリに、対向的 priors および 画像空間項を加え、シャープで知覚的に現実的な画像を生成する。自動エンコーダ、VAE、および AlexNet 表現の反転にこの損失を適用する。

ABSTRACT

Image-generating machine learning models are typically trained with loss functions based on distance in the image space. This often leads to over-smoothed results. We propose a class of loss functions, which we call deep perceptual similarity metrics (DeePSiM), that mitigate this problem. Instead of computing distances in the image space, we compute distances between image features extracted by deep neural networks. This metric better reflects perceptually similarity of images and thus leads to better results. We show three applications: autoencoder training, a modification of a variational autoencoder, and inversion of deep convolutional networks. In all cases, the generated images look sharp and resemble natural images.

研究の動機と目的

  • ピクセル単位の損失だけではブラーが生じる知覚的に忠実な画像生成の必要性を動機づける。
  • 機能空間、対向的 priors、およびピクセル空間項を組み合わせた損失クラス(DeePSiM)を提案する。
  • 3 つの実用的な適用例を示す:オートエンコーダの訓練、VAE の変種、深層視覚表現の反転。
  • DeePSiM が従来の損失と比べて、よりシャープで自然な再構成を生み出し、細かな構造を保持することを示す。

提案手法

  • DeePSiM 損失を L = lambda_feat * L_feat + lambda_adv * L_adv + lambda_img * L_img と定義する。
  • L_feat は特徴空間での距離を測る:L_feat = sum_i ||C(G_theta(x_i)) - C(y_i)||_2^2 を、比較器 C(例:AlexNet の層や Exemplar-CNN)を用いて計算する。
  • L_adv は識別器 D_phi を用いて GAN スタイルの対向訓練により自然な画像 priors を課す:L_discr = -sum_i log D_phi(y_i) + log(1 - D_phi(G_theta(x_i))); L_adv = - sum_i log D_phi(G_theta(x_i)).
  • L_img は画像空間のペナルティ:L_img = sum_i ||G_theta(x_i) - y_i||_2^2。
  • アーキテクチャにはアップコンボリューション層を持つ生成器、データ処理用の 3 つのネットワーク(生成器 G、識別器 D_phi、比較器 C)が含まれる。
  • 訓練には Adam を用い、特定のハイパーパラメータおよび識別器と対抗損失の安定化戦略を組み合わせて使用する。

実験結果

リサーチクエスチョン

  • RQ1深層特徴空間の損失は画素空間の損失よりも画像生成の知覚的類似性をうまく捉えることができるか。
  • RQ2特徴損失と対向 priors の組み合わせは生成画像の現実味と忠実度にどのように影響するか。
  • RQ3DeePSiM 損失はオートエンコーダ、VAE、深層表現の反転における再構成品質を改善するか。
  • RQ4異なるタスクに対してどの特徴空間(比較器)が性能を最適化するか。
  • RQ5深いネットワークを反転させる際、異なる層間で知覚的忠実性は維持されるか。

主な発見

  • DeePSiM ベースのオートエンコーダは SE 損失や L1 損失よりも鋭く、よりテクスチャ豊かな再構成を生み出し、細かな構造を保持する。
  • DeePSiM で訓練された VAE は標準的なピクセル空間損失よりも現実的な統計を持つ画像を生み出す。
  • DeePSiM を用いた AlexNet 表現の反転は高度に自然な再構成を生み出し、知覚的な細部の保持において従来の反転法を上回る。
  • 特徴空間損失と識別器ベースの対向 priors の組み合わせは、過度にブレたり混沌とした再構成を回避し、より現実的な画像を生み出すのに役立つ。
  • 異なる特徴空間(例:AlexNet conv5、fc6、VideoNet)も有効な比較器となり得るが、AlexNet conv5 がしばしば最良の結果を提供し、他の比較器も主要な画像特徴を捉える。
  • 特徴損失、対向損失、および画像空間損失の結合は、いずれかの成分を欠く構成より優れており、最高の性能には三つの項のすべてが必要であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。