QUICK REVIEW

[論文レビュー] Universal Style Transfer via Feature Transforms

Yijun Li, Fang Chen|arXiv (Cornell University)|May 23, 2017

Generative Adversarial Networks and Image Synthesis被引用数 348

ひとこと要約

この論文は、学習不要な普遍的なスタイル転送法を提示します。深層特徴に対する whitening and coloring transforms (WCT) を用いてコンテンツを任意のスタイルに一致させ、未知のスタイルに対しても単一パスでのスタイライズを実現します。さらに、マルチレベルの粗-細スタイライズ・パイプラインを導入し、アプローチをテクスチャ合成へ適用します。

ABSTRACT

Universal style transfer aims to transfer arbitrary visual styles to content images. Existing feed-forward based methods, while enjoying the inference efficiency, are mainly limited by inability of generalizing to unseen styles or compromised visual quality. In this paper, we present a simple yet effective method that tackles these limitations without training on any pre-defined styles. The key ingredient of our method is a pair of feature transforms, whitening and coloring, that are embedded to an image reconstruction network. The whitening and coloring transforms reflect a direct matching of feature covariance of the content image to a given style image, which shares similar spirits with the optimization of Gram matrix based cost in neural style transfer. We demonstrate the effectiveness of our algorithm by generating high-quality stylized images with comparisons to a number of recent methods. We also analyze our method by visualizing the whitened features and synthesizing textures via simple feature coloring.

研究の動機と目的

既知のスタイルで訓練せず、任意の未知スタイルに一般化する普遍的なスタイル転送を動機付ける。
特徴変換を固定のエンコーダ–デコーダネットワークと統合した、単純で効率的なフィードフォワードパイプラインを提案する。
WCTを介して特徴の共分散を一致させることが、高品質なスタイライズを生み、テクスチャ合成を可能にすることを示す。
スタイライゼーションの強度をユーザーが制御できるようにし、スタイルの空間的・確率的変動をサポートする。

提案手法

VGG-19を固定エンコーダとして、Relu_X_1 の特徴を RGB に戻す対称的デコーダを5つ訓練する。
選択した層でコンテンツ特徴 f_c とスタイル特徴 f_s を抽出し、f_c の相関を除去するために whitening を適用し、次に f_s の相関を課すために coloring を適用する（WCT）。
特徴を中心化し、共分散の固有分解を行い、f_hat_c = E_c D_c^{-1/2} E_c^T f_c として変換する（ whitening）。
カラーリングを適用: f_hat_cs = E_s D_s^{1/2} E_s^T f_hat_c の後、スタイル平均 m_s を加えて変換後の特徴を得る。
オプションとして、 alpha を介して変換後の特徴と元のコンテンツ特徴をブレンドし、制御可能なスタイライズ強度とする。
Relu_5_1 から Relu_1_1 の特徴に対して順次 WCT を適用し、粗-細な結果を得るマルチレベルのスタイライズへ拡張する。
スタイル画像のサイズによるスケール、スタイライズとコンテンツの重みのバランス、空間マスクによる領域別スタイライズなど、ユーザー制御を提供する。
ランダムなノイズコンテンツを用いたテクスチャ合成を実演し、必要に応じてテクスチャ間をブレンドすることを示す。

実験結果

リサーチクエスチョン

RQ1特徴統計だけを一致させることで、事前に定義されたスタイルの訓練なしに普遍的なスタイル転送を実現できるか。
RQ2 whitening and coloring transform (WCT) は、コンテンツ構造を保持しつつ任意のスタイル統計を効果的に転送できるか。
RQ3粗-細のマルチレベルな WCT の適用は、単一レベルの転送と比較してスタイライズ品質を改善するか。
RQ4提案手法は、品質・効率・未知スタイルへの一般化の観点で既存手法とどのように比較されるか。
RQ5この手法はテクスチャ合成への拡張やスタイル補間を可能にするか。

主な発見

手法	log(L_s)	好み（％）	時間（秒）
Chen et al. [3]	7.4	15.7	2.1
Huang & Belongie [15]	7.0	24.9	0.20
TNet [27]	6.8	12.7	0.18
Gatys et al. [9]	6.7	16.4	21.2
Ours	6.3	30.3	0.83

この手法は、スタイルごとの訓練なしに任意のスタイルのスタイル転送を達成し、高品質な結果を得る。
単一レベルの WCT はスタイル統計を効果的に転送でき、マルチレベルのスタイライズは視覚品質を向上させる。
他の手法と比較して、提案手法はスタイルとの共分散距離 L_s が小さく、研究でのユーザー評価が高い。
報告設定で 256×256 画像に対して 0.83 秒という速度で競争力があり、学習不要の一般化を可能にする。
深層特徴空間で操作することにより、テクスチャ合成とテクスチャ間の補間をサポートする。
定性的・定量的評価は、単なる色転送を超える顕著なスタイルパターンをこの手法が捉えることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。