Skip to main content
QUICK REVIEW

[論文レビュー] Internal Distribution Matching for Natural Image Retargeting.

Assaf Shocher, Shai Bagon|arXiv (Cornell University)|Dec 1, 2018
Generative Adversarial Networks and Image Synthesis参考文献 21被引用数 10
ひとこと要約

本稿では、1枚の自然画像の内部パッチ分布を学習し、サイズやアスペクト比が異なる多様な高品質な画像を生成しながら局所構造を保持する自己教師付きGAN、InGANを提案する。入力画像のみで訓練することで、生成出力全体にわたって内部統計的DNAを維持するため、非教師あり画像リターゲティングが可能になる。

ABSTRACT

Generative Adversarial Networks (GANs) typically learn a distribution of images in a large image dataset, and are then able to generate new images from this distribution. However, each natural image has its own internal statistics, captured by its unique distribution of patches. In this paper we propose an Internal (InGAN) - an image-specific GAN - which trains on a single input image and learns its internal distribution of patches. It is then able to synthesize a plethora of new natural images of significantly different sizes, shapes and aspect-ratios - all with the same internal patch-distribution (same DNA) as the input image. In particular, despite large changes in global size/shape of the image, all elements inside the image maintain their local size/shape. InGAN is fully unsupervised, requiring no additional data other than the input image itself. Once trained on the input image, it can remap the input to any size or shape in a single feedforward pass, while preserving the same internal patch distribution. InGAN provides a unified framework for a variety of tasks, bridging the gap between textures and natural images.

研究の動機と目的

  • 外部データセットやペairedトレーニングデータを必要としない自然画像リターゲティングの課題に対処すること。
  • 1枚の入力画像内のパッチの内部統計的分布を学習し、多様な画像生成に保つこと。
  • 局所構造が一貫する画像の非教師あり合成を可能にすることで、テクスチャと自然画像生成を統合すること。
  • 1回のフォワードパスで任意のサイズや形状に入力画像を再マップする完全な非教師ありフレームワークを開発すること。

提案手法

  • 1枚の入力画像から抽出したパッチにのみ基づいてGANを訓練し、その内部分布を学習すること。
  • 生成ネットワークを用いて、入力の内部パッチ統計と一致する新しい画像を合成すること。
  • 実際のパッチと生成されたパッチの両方を同じ入力画像から得るディスクリミネーターを採用すること。
  • 生成画像の局所的パッチ分布が元の入力と一致するように生成ネットワークを最適化すること。
  • 生成画像の潜在コードを最適化することで、ターゲットの寸法に一致させながら内部分布を保持する形で画像リターゲティングを実行すること。
  • モデル訓練後は再訓練を必要とせず、1回のフォワードパスで推論が可能になること。

実験結果

リサーチクエスチョン

  • RQ11枚の画像にのみ基づいてGANを訓練し、その内部パッチ分布を学習できるか?
  • RQ2そのようなモデルは、局所構造を保持したまま、サイズやアスペクト比が異なる多様な画像を生成できるか?
  • RQ3グローバルな寸法が異なる生成画像間でも、パッチの内部分布が一貫しているか?
  • RQ4このアプローチは外部データや監視なしに非教師あり画像リターゲティングを達成できるか?

主な発見

  • InGANは外部データを一切使用せずに、1枚の入力画像の内部パッチ分布を成功裏に学習した。
  • モデルは、サイズやアスペクト比が著しく異なる画像を生成しながら、局所構造とテクスチャの一貫性を保持した。
  • 生成されたすべての画像が、入力と同じ内部パッチ分布を維持しており、画像の「DNA」を効果的に保存した。
  • 訓練後は高速かつ1回のパスで画像リターゲティングが可能であり、実用的応用に適した効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。