QUICK REVIEW

[論文レビュー] Diversified Texture Synthesis with Feed-forward Networks

Yijun Li, Fang Chen|arXiv (Cornell University)|Mar 5, 2017

Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 25

ひとこと要約

本稿では、一様なアーキテクチャを用いて複数の例示から多様なテクスチャを合成する1つのディープ生成的フィードフォワードネットワークを提案する。これにより、ユーザーがスタイルを選択・補間可能となり、高品質で多様な出力を得られる。多様性損失と段階的学習を導入することで、複数のテクスチャにわたって高品質で多様な出力を得つつ、効率性と単一テクスチャネットワークを超える一般化性能を維持する。

ABSTRACT

Recent progresses on deep discriminative and generative modeling have shown promising results on texture synthesis. However, existing feed-forward based methods trade off generality for efficiency, which suffer from many issues, such as shortage of generality (i.e., build one network per texture), lack of diversity (i.e., always produce visually identical output) and suboptimality (i.e., generate less satisfying visual effects). In this work, we focus on solving these issues for improved texture synthesis. We propose a deep generative feed-forward network which enables efficient synthesis of multiple textures within one single network and meaningful interpolation between them. Meanwhile, a suite of important techniques are introduced to achieve better convergence and diversity. With extensive experiments, we demonstrate the effectiveness of the proposed model and techniques for synthesizing a large number of textures and show its applications with the stylization.

研究の動機と目的

従来のフィードフォワードテクスチャ合成手法の限界、すなわち一般化能力の欠如、低多様性、視覚的品質の不十分さを是正すること。
1つのニューラルネットワーク内で複数のテクスチャを合成可能とし、各テクスチャごとに別々のネットワークを必要としないこと。
ノイズ入力が出力の変動に意味的に寄与するようにすることで、多様性を向上させ、『説明し合い効果』を是正すること。
多様で複雑さや視覚的特徴が異なるテクスチャにわたる安定的かつ効果的な学習を可能にする訓練戦略を開発すること。

提案手法

ノイズベクトルとワンホット選択ユニットを入力とし、テクスチャ画像を出力するアップコンボリューションを用いたジェネレータネットワークを採用する。
各アップサンプリング層にスタイルガイドランスを注入するセレクタネットワークを導入し、異なるテクスチャ間の識別を向上させる。
訓練の安定化と収束性の向上を目的に、特徴量の平均を差し引いた修正版グラム行列損失を提案する。
ミニバッチ内の異なるサンプル間の特徴類似度をペナルティ化する多様性損失を設計し、ノイズベクトルによる変動を促進する。
以前に学習されたテクスチャが十分に習得された後、新しいテクスチャのみを段階的に学習する戦略を実装し、過去の能力を維持する。
ワンホットスタイル識別子を低次元ベクトルにマッピングする学習可能な埋め込み層を導入し、補間を可能とするとともに冗長性を低減する。

実験結果

リサーチクエスチョン

RQ1再訓練なしに、1つのフィードフォワードネットワークが複数のテクスチャにわたって多様な出力を一般化して生成できるか？
RQ2各テクスチャに対して多様なサンプルを生成しながらも、高い視覚的品質を維持できるように、ネットワークをどのように訓練できるか？
RQ3統計的・視覚的特性が著しく異なるテクスチャにわたる訓練を安定化させるために、効果的な訓練戦略と損失関数は何か？
RQ4学習可能なスタイル表現を用いて、フィードフォワード方式でテクスチャ間の意味的な補間を達成できるか？

主な発見

提案モデルは、単一テクスチャネットワークと同等またはそれ以上の視覚的品質を達成しながら、1つの共有アーキテクチャを用いることで、モデルサイズを顕著に削減した。
多様性損失により、ネットワークがノイズベクトルを無視するのを効果的に防ぎ、同じテクスチャとノイズ入力に対しても、人間が識別可能な異なる出力を得られた。
段階的学習戦略により、多様で複雑なテクスチャの集合を学習する際、より高速かつ安定した収束が達成された。
選択ユニットの重みを調整することで、ネットワークは滑らかなスタイル補間を可能とし、異なるテクスチャ間の自然な遷移を生成した。
埋め込み層はテクスチャ間の意味的関係を効果的に捉え、意味的な補間を可能とするとともに、ワンホットエンコーディングの冗長性を低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。