QUICK REVIEW

[論文レビュー] Texture Synthesis with Spatial Generative Adversarial Networks

Nikolay Jetchev, Urs Bergmann|arXiv (Cornell University)|Nov 24, 2016

Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 108

ひとこと要約

論文は Spatial GAN (SGAN) を紹介する。空間ノイズテンソルを大規模なテクスチャ画像へマッピングする完全畳み込み GAN により、完全結合層なしで高品質・スケーラブル・リアルタイムなテクスチャ合成を実現する。

ABSTRACT

Generative adversarial networks (GANs) are a recent approach to train generative models of data, which have been shown to work particularly well on image data. In the current paper we introduce a new model for texture synthesis based on GAN learning. By extending the input noise distribution space from a single vector to a whole spatial tensor, we create an architecture with properties well suited to the task of texture synthesis, which we call spatial GAN (SGAN). To our knowledge, this is the first successful completely data-driven texture synthesis method based on GANs. Our method has the following features which make it a state of the art algorithm for texture synthesis: high image quality of the generated textures, very high scalability w.r.t. the output texture size, fast real-time forward generation, the ability to fuse multiple diverse source images in complex textures. To illustrate these capabilities we present multiple experiments with different classes of texture images and use cases. We also discuss some limitations of our method with respect to the types of texture images it can synthesize, and compare it to other neural techniques for texture generation.

研究の動機と目的

大規模で高品質なテクスチャのための既存のテクスチャ合成手法の制限点を動機づけ、解決する。
空間ノイズテンソルを受け取り任意サイズのテクスチャを生成する完全畳み込みGANアーキテクチャを提案する。
SGAN が複数のソース画像を融合しシームレスなテクスチャを生み出せることを示す。
さまざまなテクスチャタイプとサイズにおける生成速度と品質を評価する。
SGAN の制限点とより広いテクスチャ関連タスクへの拡張可能性を論じる。

提案手法

G を空間的に構造化した Generator へ拡張し、Z ∈ ℝ^{l × m × d} を X ∈ ℝ^{h × w × 3} に写像する。
Discriminator D は空間的な位置ごとに偽/真確率の 2D フィールドを出力し、全てのパッチを同時に訓練可能とする。
G と D を全ての空間的位置に渡るジョイント目的関数 V(D,G) の平均で訓練し、G=D(G(Z)) のトリックを用いた標準的な GAN 損失を適用する。
完全結合層を排した完全畳み込みアーキテクチャを強制し、任意の出力サイズを可能にする。
訓練データとして I から抽出したパッチ X′ を実データとして用い、訓練の安定性が必要な場合に h = w = パッチサイズとなるようにする。
入力 Z と出力ピクセルの関係を表す射影野・受容野を分析し、テクスチャ特性への含意を論じる。

実験結果

リサーチクエスチョン

RQ1完全な畳み込み GAN が空間ノイズテンソルを条件として任意サイズのテクスチャを学習・合成できるか。
RQ2SGAN は Gatys らや非 GAN アプローチと比較して、現実感・スケーラビリティ・速度の点でどのように性能を発揮するか。
RQ3複数のソーステクスチャを組み合わせることでどのような機能が得られ、SGAN はシームレスなテクスチャや複合テクスチャを生み出せるか。
RQ4正則パターンや長距離依存性の観点から見た SGAN の限界は射影野を越えるものか。
RQ5ネットワークの深さと受容野が、学習されたテクスチャの品質と構造にどのように影響するか。

主な発見

Texture size (px)	SGAN4 time (s)	SGAN5 time (s)	TextureNet time (s)	Gatys time (s)
256x256	0.005	0.006	0.020	10
512x512	0.013	0.019	-	-
1024x1024	0.047	0.070	-	-
2048x2048	0.178	0.269	-	-

SGAN はワンパスの順伝播で高品質なテクスチャをリアルタイム生成できる。
SGAN は完全畳み込み設計のおかげで任意サイズのテクスチャを出力できる。
SGAN の深さを増やすと射影野が拡大し、衛星画像テクスチャなどの長く街路風のパターンの構造が改善される。
SGAN は複数のソースを融合して複合テクスチャを作れる自然なブレンドを示す。
SGAN の生成速度は画像サイズと共にサブリニアリティでスケールし、共通解像度での報告ベンチマークにおいて TextureNet や Gatys らを上回る。
衛星テクスチャ（Barcelona）では SGAN が Gatys らより方向性構造をよく保持することがスペーシャル自己相関分析で示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。