Skip to main content
QUICK REVIEW

[論文レビュー] Fast Patch-based Style Transfer of Arbitrary Style

Tian Qi Chen, Mark Schmidt|arXiv (Cornell University)|Dec 13, 2016
Generative Adversarial Networks and Image Synthesis参考文献 18被引用数 222
ひとこと要約

高速な任意スタイル転送を提案する。単一層CNNのスタイルスワップ目的と逆ネットワークを用い、任意のコンテンツおよびスタイル画像(動画を含む)に対して効率的なフィードフォワードのスタイライゼーションを実現。

ABSTRACT

Artistic style transfer is an image synthesis problem where the content of an image is reproduced with the style of another. Recent works show that a visually appealing style transfer can be achieved by using the hidden activations of a pretrained convolutional neural network. However, existing methods either apply (i) an optimization procedure that works for any style image but is very expensive, or (ii) an efficient feedforward network that only allows a limited number of trained styles. In this work we propose a simpler optimization objective based on local matching that combines the content structure and style textures in a single layer of the pretrained network. We show that our objective has desirable properties such as a simpler optimization landscape, intuitive parameter tuning, and consistent frame-by-frame performance on video. Furthermore, we use 80,000 natural images and 80,000 paintings to train an inverse network that approximates the result of the optimization. This results in a procedure for artistic style transfer that is efficient but also allows arbitrary content and style images.

研究の動機と目的

  • 任意のコンテンツとスタイル画像で機能し、スタイルごとの再学習を避ける効率的な芸術的スタイル転送を動機づける。
  • 最適化を容易にするため、コンテンツとスタイルの統計を組み合わせた単一層の目的を導入する。
  • コンテンツ活性化をスタイルパッチと交換するスタイルスワップ操作を開発し、標準の畳み込みとして実装できる。
  • 新しいスタイル画像に対して高速なフィードフォワードのスタイル転送を可能にするため、活性化を反転させる逆ネットワークを訓練する。

提案手法

  • 正規化された相互相関を用いて、最も近いスタイルパッチでコンテンツパッチを置き換える、単一のCNN層におけるパッチベースのスタイルスワップを定義する。
  • スタイルスワップを、2D畳み込み、チャネルごとのargmax、2D転置畳み込みの3つの操作で構成されるネットワークとして実装する。
  • Φ(I)とPhiss(C,S)の間のフロベニウスノルムを最小化し、総変動正規化を加えることでスタイライズされた活性化を最適化する。
  • 切り捨てられたVGG-19の最適な逆を近似する逆ネットワークを訓練し、スタイルスワップされた活性化を含む拡張訓練を行う。
  • フィードフォワード・パイプラインで逆ネットワークを使用する:Φ(C)とΦ(S)を計算し、スタイルスワップを介してΦ^{ss}(C,S)を得て、逆ネットワークで画像を生成する。
  • 再学習なしに任意のスタイルをサポートし、動画のフレームごとに一貫した結果を実現できることを示す。

実験結果

リサーチクエスチョン

  • RQ1単一層のCNN活性化目的が、任意のコンテンツとスタイル画像で競争力のあるスタイル転送結果を生み出せるか?
  • RQ2パッチベースのスタイルスワップは、明示的な時間的制約なしで視覚的に満足のいく結果と安定した動画スタイライゼーションを生み出せるか?
  • RQ3新しいスタイル画像と異なるコンテンツサイズのスタイライズに対して、逆ネットワークは一般化できるか?
  • RQ4提案手法は、最適化ベースおよび他のフィードフォワード型スタイル転送と、速度と柔軟性の点でどのように比較されるか?

主な発見

手法N. イテレーション1回あたりの時間 (s)合計 (s)
Gatys et al. [11]5000.100450.20
Li and Wand [21]2000.6293125.86
Style Swap (Optim)1000.04664.66
Style Swap (InvNet)11.24831.25
  • 本手法は、単一CNN層(relu3_1)でコンテンツ活性化をスタイルパッチと置換することにより視覚的に満足のいく結果を得ており、パッチサイズによる直感的な調整を提供する。
  • スタイルスワップの実装は標準の畳み込み層および転置畳み込み層で実現可能で、計算を効率化する。
  • 逆ネットワークは最適化の最適解を近似し、新しいコンテンツおよびスタイル画像へ一般化でき、迅速なフィードフォワードのスタイライズパイプラインを実現する。
  • 比較時間は、Gatys et al. の最適化ベースのスタイル転送が提案されたスタイルスワップ手法より遅く、いくつかの設定では逆ネットワークが最適化より速い結果を提供することを示している。
  • 固定スタイルネットワークの再学習なしに任意のスタイル画像を許容し、フレーム間で一貫したスタイライズを持つ動画をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。