Skip to main content
QUICK REVIEW

[論文レビュー] Texture Networks: Feed-forward Synthesis of Textures and Stylized Images

Dmitry Ulyanov, Vadim Lebedev|arXiv (Cornell University)|Mar 10, 2016
Generative Adversarial Networks and Image Synthesis参考文献 16被引用数 605
ひとこと要約

Texture Networksは、テクスチャを合成するコンパクトな前方伝播ジェネレータを訓練し、単一の例からスタイル転送を適用する。最適化ベースの手法と同等の品質を、はるかに高速でメモリ効率の良い結果で得る。

ABSTRACT

Gatys et al. recently demonstrated that deep networks can generate beautiful textures and stylized images from a single texture example. However, their methods requires a slow and memory-consuming optimization process. We propose here an alternative approach that moves the computational burden to a learning stage. Given a single example of a texture, our approach trains compact feed-forward convolutional networks to generate multiple samples of the same texture of arbitrary size and to transfer artistic style from a given image to any other image. The resulting networks are remarkably light-weight and can generate textures of quality comparable to Gatys~et~al., but hundreds of times faster. More generally, our approach highlights the power and flexibility of generative feed-forward models trained with complex and expressive loss functions.

研究の動機と目的

  • 遅い最適化ベースのテクスチャ合成およびスタイル転送手法の速い代替案を提案する。
  • ノイズをテクスチャへ写像する、軽量で全結合なし、完全畳み込みのマルチスケールジェネレータを提案し、ノイズをテクスチャへ写像する。
  • 固定された事前学習ディスクリプタネットワークの統計量(Gram 行列)を損失信号として用い、ジェネレータの訓練を実証する。
  • この手法が、従来法と同程度のテクスチャ品質を示すとともに、著しい速度改善とメモリ利得を提供することを示す。
  • テクスチャ損失とコンテンツ損失を組み合わせて、スタイル転送を行えるようジェネレータを拡張する。

提案手法

  • 固定されたディスクリプタCNN(例:VGG)からのGram行列統計に基づくテクスチャ損失 L_T を最小化して、ノイズ z を画像 x に写像する前方伝播ジェネレータ g を訓練する。
  • Upsampling とスケール別のノイズ入力を備えた、マルチスケールの完全畳み込みアーキテクチャを用いて、任意サイズのテクスチャを合成する。
  • SGDでエンドツーエンドに訓練し、デスクリプタを評価して G^l(x) を計算し、参照テクスチャ x_0 に対する損失を算出する。
  • コンテンツ y とノイズ z の両方を入力としてスタイル転送用にゲネレータを拡張し、テクスチャ損失 L_T とコンテンツ損失 L_C の重み付き和で訓練する。
  • スタイライズのために、マルチスケールのノイズをダウンサンプリングされたコンテンツと連結し、結果を改善するためにスケール数を増やす。
  • 小さな画像プールを用いた Adam で訓練し、実時間対応の合成を実証する(256x256 の画像あたり約 20 ms)。

実験結果

リサーチクエスチョン

  • RQ1コンパクトな前方伝搬ネットワークが、最適化ベースの手法と同等の品質のテクスチャを合成できるのか?
  • RQ2同じフレームワークを、テクスチャ統計とコンテンツ制約を組み合わせてリアルタイムのスタイル転送に拡張できるのか?
  • RQ3少数のパラメータで高品質なテクスチャ生成を可能にする、どのようなアーキテクチャの選択(マルチスケール、連結、正規化)が最も効果的か?
  • RQ4テクスチャ合成とスタイライズのための訓練済みジェネレータの速度とメモリ使用量は、反復的最適化法とどのように比較されるのか?

主な発見

  • 単一の前方伝播ジェネレータは、Gatys et al. のような最適化ベースの手法と同等の品質と多様性でテクスチャを合成できるが、数百倍速い。
  • 提案されたジェネレータは、反復的最適化より約500倍の高速化を達成し、メモリもはるかに少なくなる(256x256 サンプルで約170 MB 対 1100 MB)。
  • 約65Kパラメータのコンパクトなマルチスケールアーキテクチャは、Gram行列ベースのテクスチャ損失を用いてエンドツーエンドで訓練され、任意サイズのテクスチャを生成する。
  • スタイル転送では、テクスチャ損失とコンテンツ損失を組み合わせると、多くのスタイルで最適化ベースの手法に匹敵する視覚的なスタイルが得られるが、中には印象が薄いケースもある。
  • 完全畳み込み設計により、訓練解像度を超えた大きな画像のスタイライズが可能(例:256x256 の訓練ネットワークを 1024x768 の結果に適用)。
  • 訓練は効率的で、K40 上のモデルは約2時間、推論時のスタイライゼーションは画像ごと約20 ms程度で実行される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。