QUICK REVIEW

[論文レビュー] Multi-style Generative Network for Real-time Transfer

Hang Zhang, Kristin Dana|arXiv (Cornell University)|Mar 20, 2017

Generative Adversarial Networks and Image Synthesis参考文献 43被引用数 113

ひとこと要約

MSG-Netは二次統計を一致させることで2Dスタイル表現を学習するCoMatch Layerを導入し、筆サイズ制御と高画質を実現するリアルタイムのマルチスタイル転送を可能にします。

ABSTRACT

Despite the rapid progress in style transfer, existing approaches using feed-forward generative network for multi-style or arbitrary-style transfer are usually compromised of image quality and model flexibility. We find it is fundamentally difficult to achieve comprehensive style modeling using 1-dimensional style embedding. Motivated by this, we introduce CoMatch Layer that learns to match the second order feature statistics with the target styles. With the CoMatch Layer, we build a Multi-style Generative Network (MSG-Net), which achieves real-time performance. We also employ an specific strategy of upsampled convolution which avoids checkerboard artifacts caused by fractionally-strided convolution. Our method has achieved superior image quality comparing to state-of-the-art approaches. The proposed MSG-Net as a general approach for real-time style transfer is compatible with most existing techniques including content-style interpolation, color-preserving, spatial control and brush stroke size control. MSG-Net is the first to achieve real-time brush-size control in a purely feed-forward manner for style transfer. Our implementations and pre-trained models for Torch, PyTorch and MXNet frameworks will be publicly available.

研究の動機と目的

リアルタイムのスタイル転送における1Dスタイル埋め込みを超えた品質と柔軟性の向上を動機付ける。
CoMatch Layerを導入してターゲットスタイルの特徴量の二次統計量（Gram行列）を一致させる。
アーティファクトを避けるためアップサンプリングデコーダを備えたMSG-Net（マルチスタイル生成ネットワーク）を構築する。
リアルタイムの筆サイズ制御とコンテンツ–スタイル補間、カラー保持、空間制御との互換性を実現する。
100スタイルから1000スタイルへのスケーラビリティを示し、品質低下を最小化する。

提案手法

CoMatch Layerを提案し、スタイルターゲットのGram行列統計量を一致させて2Dスタイル表現を学習する。
アップサンプリング畳み込みデコーダを備えたMulti-style Generative Network（MSG-Net）にCoMatch Layerを組み込み、チェッカーボードアーティファクトを回避する。
チャンネルの豊富さを保持し、より深いネットワークを可能にするアップサンプリング残差ブロックを用いる。
事前学習済みの損失ネットワーク（例：VGG）と知覚損失を用いたコンテンツおよびマルチスケールスタイル項を組み合わせた損失で訓練する。
シアネ能性エンコーダを採用してスタイル統計を抽出し、複数のスケールでCoMatch Layerを介してそれを適用する変換ネットワークを用いる。
入力スタイル画像サイズを変化させ、複数のスタイルサイズで訓練することで筆サイズ制御を可能にする。

実験結果

リサーチクエスチョン

RQ1Gram行列統計量による2Dスタイル表現は、単一のフォワードネットワークで高品質なマルチスタイル転送を可能にするか。
RQ2CoMatch Layerは複数のスタイルにわたって従来の1D埋め込みよりスタイル忠実度を改善するか。
RQ3アーティファクトなしにリアルタイムの筆サイズ制御を純粋なフォワードフレームワークで実現できるか。
RQ4スタイル数を100から1000に増やす場合、MSG-Netのスケーラビリティはどの程度か。
RQ5MSG-Netはコンテンツ–スタイル補間や空間制御といった既存のスタイル転送手法と互換性があるか。

主な発見

MSG-Netは複数の従来手法と比較して卓越した画像忠実度とリアルタイム速度を達成する。
CoMatch Layerによる2Dスタイル表現はターゲットスタイルの二次統計量を効果的に一致させる。
アップサンプリング畳み込みとアップサンプリング残差ブロックはチェッカーボードアーティファクトを低減しつつ効率を維持する。
MSG-Net-100 (2.3M parameters)は256×256入力で90fpsを超える速度を実現し、スタイル補間、カラー保持、空間制御機能と互換性がある。
MSG-Net-1K (8.9M parameters)へ拡張しても顕著な品質低下は見られず、マルチスタイル機能のスケーラビリティを示す。
モデルは入力スタイル画像サイズを変えることでリアルタイムの筆サイズ制御を可能にし、純粋なフォワードのマルチスタイル転送としては初の実現例となる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。