QUICK REVIEW

[論文レビュー] Learning Texture Manifolds with the Periodic Spatial GAN

Urs Bergmann, Nikolay Jetchev|arXiv (Cornell University)|May 18, 2017

Generative Adversarial Networks and Image Synthesis参考文献 17被引用数 23

ひとこと要約

本論文では、周期的空間次元を追加したノイズテンソルを用いることで、複雑なテクスチャ多様体を学習する新規な生成対抗ネットワーク、Periodic Spatial GAN (PSGAN) を提案する。PSGAN はスケーラブルで高解像度のテクスチャ合成を可能にし、テクスチャ間の滑らかな補間と周期的パターンの正確なモデリングを実現し、多様なデータセットにおいて、従来の GAN ベース手法よりも柔軟性と視認品質に優れる。

ABSTRACT

This paper introduces a novel approach to texture synthesis based on generative adversarial networks (GAN) (Goodfellow et al., 2014). We extend the structure of the input noise distribution by constructing tensors with different types of dimensions. We call this technique Periodic Spatial GAN (PSGAN). The PSGAN has several novel abilities which surpass the current state of the art in texture synthesis. First, we can learn multiple textures from datasets of one or more complex large images. Second, we show that the image generation with PSGANs has properties of a texture manifold: we can smoothly interpolate between samples in the structured noise space and generate novel samples, which lie perceptually between the textures of the original dataset. In addition, we can also accurately learn periodical textures. We make multiple experiments which show that PSGANs can flexibly handle diverse texture and image data sources. Our method is highly scalable and it can generate output images of arbitrary large size.

研究の動機と目的

教師なしで、大規模で複雑な画像データセットから学習可能なデータ駆動型テクスチャ合成手法の開発。
非周期的および周期的テクスチャ、特に循環ステーションナリティを示すテクスチャのモデリング。
学習済みテクスチャ間の滑らかな補間を可能にし、訓練データに存在しない新しい視認的に融合されたテクスチャの生成。
メモリおよび推論時間において線形スケーラビリティを達成し、任意の出力画像サイズをサポート。
従来の GAN やパrametric手法がテクスチャ多様体や周期的構造を扱う際に抱える制限を克服。

提案手法

PSGAN はノイズテンソルに局所的（Z^l）、グローバル（Z^g）、周期的（Z^p）の3種類の異なる次元を追加し、それぞれに特有の空間構造を備える。
生成器ネットワークは、これらの構造化されたノイズテンソルを全畳み込み層を用いて処理し、任意のサイズの画像を生成する。
周期的次元（Z^p）は、ハニカムやウロコの鱗など周期的テクスチャをモデリングするため、固定された空間周波数を持つように設計されている。
グローバル次元（Z^g）は、画像の異なる領域間で一貫したテクスチャパターンを保証し、シームレスなタイリングを可能にする。
モデルは標準的な GAN 目的関数を用いて訓練され、判別器は完全に教師なしで、実画像と生成画像を区別する。
大規模な出力を空間パッチに分割することで、GPU メモリ使用量を一定に保ちながら、効率的かつスケーラブルな生成を実現。

実験結果

リサーチクエスチョン

RQ1GAN ベースのモデルは、明示的な教師なしで、大規模でラベルのない画像データセットから多様なテクスチャを学習・生成できるか？
RQ2モデルは複数のテクスチャを表現し、連続的なテクスチャ多様体を形成する補間を可能にするか？
RQ3モデルは周期的テクスチャ、特に複雑な空間周波数を持つものも正確に捉え、生成できるか？
RQ4構造化されたノイズ空間は、異なるテクスチャタイプ間で滑らかで視認的に意味のある遷移を可能にするか？
RQ5モデルは、線形のメモリおよび計算複雑性を維持しながら、任意に大きな出力画像サイズにスケーリング可能か？

主な発見

PSGAN は、複雑で非定常的かつ循環定常的プロセスを含む大規模データセットからテクスチャを効果的に学習・合成でき、従来の GAN ベース手法やパラメトリック手法を上回る。
構造化されたノイズ空間におけるテクスチャ間の滑らかな補間が可能で、訓練データに存在しない新しい視認的に融合されたテクスチャが生成される。
ハニカムやウロコの鱗のような周期的テクスチャを、正しい空間周波数と整合性を保ちながら正確にモデリングでき、従来の手法とは異なり優れた性能を示す。
線形のメモリおよび実行時間複雑性を維持しながら、スケーラブルで高解像度の画像生成が可能であり、任意のサイズの出力をサポート。
シームレスなステッチによりタイル可能なテクスチャが生成され、大規模なテクスチャタイリングを要する応用に適している。
強みがある一方で、スケールや周期性が大きく異なる多様なテクスチャを学習する際には、モードドロップの問題が時折発生する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。