QUICK REVIEW

[論文レビュー] Learning Linear Transformations for Fast Arbitrary Style Transfer

Xueting Li, Sifei Liu|arXiv (Cornell University)|Aug 14, 2018

Generative Adversarial Networks and Image Synthesis参考文献 36被引用数 95

ひとこと要約

本論文は軽量な CNN を用いて線形変換行列 T を学習し、任意のスタイル転送を高速に行う。二次統計をモデル化し、内容的類似性を保つ。芸術的、フォトリアリスティック、映像、ドメイン適応タスクに適用可能。

ABSTRACT

Given a random pair of images, an arbitrary style transfer method extracts the feel from the reference image to synthesize an output based on the look of the other content image. Recent arbitrary style transfer methods transfer second order statistics from reference image onto content image via a multiplication between content image features and a transformation matrix, which is computed from features with a pre-determined algorithm. These algorithms either require computationally expensive operations, or fail to model the feature covariance and produce artifacts in synthesized images. Generalized from these methods, in this work, we derive the form of transformation matrix theoretically and present an arbitrary style transfer approach that learns the transformation matrix with a feed-forward network. Our algorithm is highly efficient yet allows a flexible combination of multi-level styles while preserving content affinity during style transfer process. We demonstrate the effectiveness of our approach on four tasks: artistic style transfer, video and photo-realistic style transfer as well as domain adaptation, including comparisons with the state-of-the-art methods.

研究の動機と目的

任意のスタイル転送を動機づけ、二次統計変換の計算コストを削減する。
コンテンツとスタイル統計を結ぶ変換行列の理論的形を導出する。
小規模なCNNを用いてTを推定する学習ベースで効率的な方法を提案する。
芸術的、映像、フォトリアリスティックなスタイル転送、およびドメイン適応への適用性を示す。

提案手法

コンテンツとスタイル特徴の共分散を揃える線形変換Tを学習として定式化する。
コンテンツ特徴とスタイル特徴の共分散行列を入力とする二つの小規模CNNを用い、それらの中間行列を出力してTを構成する。
高価な行列分解を避けるためにTの計算を分解化する。圧縮特徴経路（CONVs）と最終的な全結合層を用いる。
固定されたVGG-19損失ネットワークによって計算されたコンテンツ損失と多段レベルのスタイル損失を組み合わせた損失で学習する。
1つのT内でrelu1_1、relu2_1、relu3_1、relu4_1での損失を課すことにより、複数のスタイルレベルを組み合わせられるようにする。

実験結果

リサーチクエスチョン

RQ1学習された線形変換行列Tは、任意のスタイル転送に必要な二次統計を捉えられるか。
RQ2コンテンツ用とスタイル用の二つのCNN設計は、結合入力ネットワークと比較して安定で効率的なTを生み出すか。
RQ3多段レベルのスタイル損失でTを誘導することは、芸術的、映像、フォトリアリスティック、ドメイン適応といったタスク全般の品質と柔軟性にどう影響するか。

主な発見

画像サイズ	Ulyanov et al. 2017	Gatys et al. 2016	Huang et al. 2017	Li et al. 2017	Ours (relu3_1)	Ours (relu4_1)
256	0.013	16.51	0.019	0.922	0.007	0.010
512	0.028	59.45	0.071	1.080	0.025	0.036
1024	0.092	N/A	N/A	N/A	0.100	0.146

本手法は任意のスタイル転送に対して高速なエンドツーエンドのフィードフォワードパイプライン（約140fps）を実現する。
単一の学習済みTは、異なるスタイル損失構成を用いることで、複数のエンコーダを連鎖させることなくマルチレベルのスタイルを表現できる。
変換モジュールへの共分散ベースの入力は、生データ画像や特徴量を用いるよりも一般化能力を改善する。
このアプローチは内容の親和性を保持し、安定した動画スタイリングと歪みのないフォトリアリスティックスタイリングを実現する。
芸術的、映像、フォトリアリスティックなスタイル転送、およびドメイン適応（例: ゲーム→リアル）などの応用で、競争力のある結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。