[論文レビュー] Photorealistic Style Transfer via Wavelet Transforms
本論文は WCT 2 を紹介します。これはウェーブレット補正を施したエンドツーエンドのフォトリアリスティックなスタイル転送モデルで、コンテンツの構造を保持し、1 回のパスで段階的なスタイリングを実現し、ポスト処理なしで高解像度で実行します。
Recent style transfer models have provided promising artistic results. However, given a photograph as a reference style, existing methods are limited by spatial distortions or unrealistic artifacts, which should not happen in real photographs. We introduce a theoretically sound correction to the network architecture that remarkably enhances photorealism and faithfully transfers the style. The key ingredient of our method is wavelet transforms that naturally fits in deep networks. We propose a wavelet corrected transfer based on whitening and coloring transforms (WCT$^2$) that allows features to preserve their structural information and statistical properties of VGG feature space during stylization. This is the first and the only end-to-end model that can stylize a $1024 imes1024$ resolution image in 4.7 seconds, giving a pleasing and photorealistic quality without any post-processing. Last but not least, our model provides a stable video stylization without temporal constraints. Our code, generated images, and pre-trained models are all available at https://github.com/ClovaAI/WCT2.
研究の動機と目的
- 参照スタイルを適用しつつ、細かな内容の詳細を保持するフォトリアリスティックなスタイル転送を動機づける。
- VGGベースのエンコーダ/デコーダにおける劣化を伴うプーリング/アンプーリングを Haar ウェーブレットプーリングと置換して、正確な再構成を可能にする。
- 単一のフォワードパス内での段階的スタイライズを提案し、効率を向上させ、アーティファクトを低減する。
- 最小の実行時間とポスト処理なしで高解像度(1024×1024)のスタイル適用を実証する。
- 時間的正規化なしでビデオスタイライズの時間的一貫性を示す。
提案手法
- VGGエンコーダ/デコーダの最大プーリング/アンプーリングを Haar ウェーブレットプーリング/アンプーリングに置換して、正確な信号再構成を可能にする。
- VGG特徴空間におけるスタイル転送に対してホワイトニングとカラーリング変換 (WCT) を用い、進行的な単一パス戦略を採用する。
- 1回のフォワードパス内で、エンコーダレベル(conv1_X から conv4_X)にわたって段階的にスタイライズし、マルチレベルデコーダを回避する。
- アーティファクトを監視しつつ、スタイル強度を高めるためにマルチレベルスタイライズの拡張を任意で許可する。
- 単一のエンコーダ-デコーダペアを訓練し、セマンティックマップを活用して領域ごとのスタイル転送を導く。エンドツーエンドパイプライン (WCT 2) を用いて実装する。
- 厳密ウェーブレットフレームとエネルギー圧縮による安定したスタイライズを正当化するためにフレーム理論に基づく根拠づけ。
実験結果
リサーチクエスチョン
- RQ1ウェーブレットベースのプーリング/アンプーリングは、フォトリアリスティックなスタイル転送時にコンテンツ構造を保持するための正確な再構成を可能にするか。
- RQ2進行的な単一パススタイライズは、マルチレベル手法と同等またはそれ以上のフォトリアリズムと安定性をもたらすか。
- RQ3ポスト処理なしでの高解像度スタイライズにおける定量的・定性的な利得は何か。
- RQ4時間的制約なしのビデオスタイライズにおける WCT 2 の時間的安定性はどうか。
主な発見
| 画像サイズ | DPST | (WCT + ポスト) | 私たちの手法 |
|---|---|---|---|
| 256×256 | 306.9 | 3.2+9.2 | 3.2 |
| 512×512 | 1020.7 | 3.6+40.2 | 3.8 |
| 896×896 | 2988.6 | 3.8+OOM | 4.4 |
| 1024×1024 | 3887.8 | 3.9+OOM | 4.7 |
- WCT 2 は従来手法とは異なり、ポスト処理なしでフォトリアリスティックなスタイライズを実現する。
- 1024×1024 で、WCT 2 は 4.7 秒で動作し、DPST および PhotoWCT (full) よりもかなり高速で、メモリ使用量も低い。
- WCT 2 は基準と比較して高い SSIM と低い Gram-style ロスを示し、フォトリアリズムとスタイル忠実度が向上していることを示唆。
- 単一パス内での段階的スタイライズは誤差の増幅を抑え、単一のエンコーダ-デコーダを実現し、効率を向上させる。
- ウェーブレットプーリングは内容のディテールとエッジを保持し、LL成分と高周波成分を変換する際の選択的スタイライズを可能にする。
- WCT 2 を用いたビデオのスタイライズは、光フロー制約なしで時間的安定性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。