QUICK REVIEW

[論文レビュー] InGAN: Capturing and Remapping the "DNA" of a Natural Image

Assaf Shocher, Shai Bagon|arXiv (Cornell University)|Dec 1, 2018

Generative Adversarial Networks and Image Synthesis参考文献 29被引用数 32

ひとこと要約

InGANは、1枚の自然画像の内部パッチ分布（いわゆる「DNA」）を学習する、画素単位の非教師付きGANを提案する。この手法により、任意のサイズ、形状、アスペクト比の新しい画像を生成可能であり、局所構造、スケール、要素の相対的位置関係を保持する。マルチスケールディスクライマと再構成損失を用いることで、1回の順伝播で多様な出力（非長方形形状を含む）へのリターゲティングが可能となる。

ABSTRACT

Generative Adversarial Networks (GANs) typically learn a distribution of images in a large image dataset, and are then able to generate new images from this distribution. However, each natural image has its own internal statistics, captured by its unique distribution of patches. In this paper we propose an "Internal GAN" (InGAN) - an image-specific GAN - which trains on a single input image and learns its internal distribution of patches. It is then able to synthesize a plethora of new natural images of significantly different sizes, shapes and aspect-ratios - all with the same internal patch-distribution (same "DNA") as the input image. In particular, despite large changes in global size/shape of the image, all elements inside the image maintain their local size/shape. InGAN is fully unsupervised, requiring no additional data other than the input image itself. Once trained on the input image, it can remap the input to any size or shape in a single feedforward pass, while preserving the same internal patch distribution. InGAN provides a unified framework for a variety of tasks, bridging the gap between textures and natural images.

研究の動機と目的

極端なサイズ変更、形状変更、アスペクト比の変更が加わった場合でも、画像の局所構造を保持する挑戦に応えること。
外部データを一切必要とせず、1枚の入力画像の内部統計にのみ依存する完全な非教師付き手法を開発すること。
複数スケールでのパッチ分布モデリングにより、テクスチャと自然画像の操作を統一したフレームワークで扱うこと。
同じ内部「DNA」を有する複数のターゲット画像を、1回の順伝播で高速に生成可能とし、各ターゲットごとに反復的最適化を実行しないこと。

提案手法

InGANは、幾何変換Tを用いて、入力画像を任意のサイズ・形状の出力画像に写像する生成器を訓練する。この際、入力画像の内部パッチ分布を保持する。
マルチスケールディスクライマを用い、入力画像からの実際のパッチと生成画像からの偽物のパッチを区別することで、複数スケールにわたる分布マッチングを強制する。
エンコーダ-エンコーダー生成器アーキテクチャにℓ₁再構成損失を適用することで、出力から入力を再構成できるようにし、学習の安定性と完全性を向上させる。
可逆な幾何変換（例：ホモロジー）を用いることで、非長方形の出力に対しても局所形状や傾きを保持したリターゲティングが可能となる。
生成器は敵対的損失、再構成損失、分布マッチング目的関数を用いてエンドツーエンドに訓練され、局所的および大域的画像構造の両方を維持する。
このフレームワークは完全に非教師付きである：ラベルもペairedデータも外部データセットも不要。入力画像そのもののみを必要とする。

実験結果

リサーチクエスチョン

RQ11枚の画像に対してGANを訓練し、その内部パッチ分布をモデル化し、同じ統計的性質を持つ新しい画像を生成できるか？
RQ2グローバルなサイズやアスペクト比が極端に変化しても、局所構造が歪まないような画像リターゲティングはどのように達成できるか？
RQ31回の順伝播で、任意のサイズや形状の多様なターゲット画像を、同じ内部「DNA」を有する1つの訓練済みモデルから生成できるか？
RQ41枚の入力から画像を生成する際、細部と大域的構造の両方をどの程度保持できるか？
RQ5視覚的整合性と局所構造を維持しつつ、非長方形の出力形状をサポートできるか？

主な発見

InGANは、1枚の入力画像から、著しく異なるサイズ、形状、アスペクト比を持つ新しい画像を生成可能であり、すべてが元のパッチ分布と局所的要素構造を保持している。
アブレーションスタディの結果、マルチスケールディスクライマと再構成損失の両方が重要であることが確認された。両方を省略すると、構造的崩壊や整合性の喪失が生じる。
可逆な幾何変換を用いることで、InGANは非長方形の形状へのリターゲティングを実現し、3D再構築なしに3Dパララックスの錯覚を生み出している。
シームカービングや双方向類似度法と比較して、InGANは大規模構造の歪みを回避しており、各ターゲットごとに新たな最適化問題を解く必要がない。
成功している一方で、InGANは意味的理解が欠落しているため、意味的に誤った出力を生成することがある。これは、オブジェクトレベルの意味論ではなくパッチ統計のみをモデル化しているためである。
定性的な比較とアブレーションスタディによる検証から、生成画像の視覚的整合性と完全性が高く達成されていることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。