QUICK REVIEW

[論文レビュー] Non-Stationary Texture Synthesis by Adversarial Expansion

Yang Zhou, Zhen Zhu|arXiv (Cornell University)|May 11, 2018

Generative Adversarial Networks and Image Synthesis参考文献 38被引用数 25

ひとこと要約

本論文では、非定常なテクスチャの合成を目的としたGANベースの手法を提案する。この手法は、完全畳み込み型の生成器を用いて、例示画像から小さなテクスチャパッチを二倍のサイズに敵対的に拡張する。このプロセスにより、大規模な構造や空間的変動を保持する。本手法は、木の輪郭、葉脈、タイル模様といった複雑で非周期的なテクスチャを効果的に合成でき、従来の手法が周期的または定常的な出力しか得られないため失敗する状況でも成功する。

ABSTRACT

The real world exhibits an abundance of non-stationary textures. Examples include textures with large-scale structures, as well as spatially variant and inhomogeneous textures. While existing example-based texture synthesis methods can cope well with stationary textures, non-stationary textures still pose a considerable challenge, which remains unresolved. In this paper, we propose a new approach for example-based non-stationary texture synthesis. Our approach uses a generative adversarial network (GAN), trained to double the spatial extent of texture blocks extracted from a specific texture exemplar. Once trained, the fully convolutional generator is able to expand the size of the entire exemplar, as well as of any of its sub-blocks. We demonstrate that this conceptually simple approach is highly effective for capturing large-scale structures, as well as other non-stationary attributes of the input exemplar. As a result, it can cope with challenging textures, which, to our knowledge, no other existing method can handle.

研究の動機と目的

大規模な構造や方向、スケール、色といった空間的に変化する属性を示す非定常テクスチャを合成する課題に対処すること。
非定常な例示画像に対して、しばしば定常的または周期的な結果を生成してしまう既存の例示ベースのテクスチャ合成手法の限界を克服すること。
入力例示画像の外側に、元のパターンを単に繰り返すのではなく、構造的に整合性のある新しいテクスチャコンテンツを学習して生成する方法を開発すること。
1つの例示画像に対して1つの訓練済み生成器を用いることで、サイズと多様性を制御可能な高速なフォワードスルー型テクスチャ合成を可能にすること。
訓練済み生成器を外部のガイド画像に適用することでテクスチャ転送を可能にし、入力に含まれる大規模なパターンに従った合成を実現すること。

提案手法

生成的敵対ネットワーク（GAN）を訓練し、与えられた例示画像から小さなテクスチャパッチ（例：64×64）を、より大きなブロック（例：128×128）に二倍の空間的スケールで拡張する。
生成器は、実際の大きなブロックと生成されたブロックを区別するように訓練された識別器に対する敵対的損失を最小化することで、視覚的に妥当な拡張を学習する。
訓練は自己教師ありである：実際の大きなブロックは例示画像からサンプリングされ、生成器は同じ例示画像からの小さなパッチの拡張を生成する。
完全畳み込み型の生成器により、1回のフォワードパスで高速な推論が可能となり、元のサイズの2倍までのテクスチャ合成が可能になる。
より大きなテクスチャは、生成器の出力を再帰的に自身に再入力することで得られ、マルチスケールの拡張が可能になる。
テクスチャ転送は、外部の画像（例：スケッチ、パーリンノイズ、実画像）を訓練済み生成器に入力することで実現され、出力が入力の大きな構造に従うようになる。

実験結果

リサーチクエスチョン

RQ1GANベースのアプローチは、従来の手法が捉えきれない大規模構造や空間的に変化する属性を示す非定常テクスチャを、効果的に合成できるか？
RQ2局所的なパッチ拡張に訓練された生成器は、同心円の木の輪や分岐する葉脈といったグローバルなパターンをどれほど正確に再現・拡張できるか？
RQ3同じ訓練済み生成器が、ガイド画像内の大きな構造に従う結果を生成するというテクスチャ転送にどの程度一般化できるか？
RQ4訓練パッチに適切に表現されていないレアまたは特異な構造（例：ヒマワリの中心点）を処理する際の本手法の限界は何か？
RQ5入力に存在しない新しい非冗長なテクスチャ要素を生成する際、アーチファクトや繰り返しを避けることができるか？

主な発見

提案手法は、木の輪郭、葉脈、タイル模様といった極めて非定常なテクスチャを効果的に合成でき、すべての最先端ベースラインが失敗し、定常的または周期的な結果を出力する。
生成器は、元の入力の繰り返しを避け、追加の脈路、羽毛、タイルといった新しいテクスチャ要素を生成する。スケールと間隔は保持されつつ、新規なコンテンツが導入される。
結果は、木の共中心の輪やヒマワリの放射状パターンといった、視覚的妥当性に不可欠な大規模構造を忠実に再現していることが示された。
スケッチやパーリンノイズなどの外部入力に生成器を適用することでテクスチャ転送が可能になり、入力の大きなレイアウトに従う妥当なテクスチャが得られる。
境界やコーナー付近にアーチファクトが現れることがあり、これは訓練例が少なく、畳み込みパディングの影響があるためと推測される。境界領域への感受性が示唆される。
大規模構造（明確なタイルや中心の特異点）が訓練パッチに十分に含まれていない場合、失敗ケースが発生する。これは、より豊富なデータやマルチテクスチャ訓練の必要性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。