QUICK REVIEW

[論文レビュー] Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Justin Johnson, Alexandre Alahi|arXiv (Cornell University)|Mar 27, 2016

Advanced Image Processing Techniques参考文献 52被引用数 1,031

ひとこと要約

本論文は、事前学習済み損失ネットワーク（VGG-16）からの知覚的損失を用いてフィードフォワード変換ネットワークを訓練し、リアルタイムのスタイル転送と単一画像超解像を実現する。 Gatys らと同等のスタイル転送品質を1000倍の速度で実現し、ピクセル単位の損失よりも超解像における細部再現を改善する。

ABSTRACT

We consider image transformation problems, where an input image is transformed into an output image. Recent methods for such problems typically train feed-forward convolutional neural networks using a \emph{per-pixel} loss between the output and ground-truth images. Parallel work has shown that high-quality images can be generated by defining and optimizing \emph{perceptual} loss functions based on high-level features extracted from pretrained networks. We combine the benefits of both approaches, and propose the use of perceptual loss functions for training feed-forward networks for image transformation tasks. We show results on image style transfer, where a feed-forward network is trained to solve the optimization problem proposed by Gatys et al in real-time. Compared to the optimization-based method, our network gives similar qualitative results but is three orders of magnitude faster. We also experiment with single-image super-resolution, where replacing a per-pixel loss with a perceptual loss gives visually pleasing results.

研究の動機と目的

画像間変換タスクが、ピクセル搢失だけでなく知覚的で高レベルな特徴損失の恩恵を受けるよう動機づける。
最適化ベースのスタイル転送を近似でき、超解像の美観を改善できる高速なフィードフォワード変換ネットワークを開発する。
知覚的損失が、事前学習済みの損失ネットワークから変換ネットワークへの意味理解の転移を可能にすることを示す。
ピクセル単位の損失と比較して、スタイル転送のリアルタイム性能と超解像の定性的改善を示す。

提案手法

知覚的損失を定義するために、画像分類で事前学習された固定の損失ネットワークphi（例：VGG-16）を用いる。
変換後の出力とターゲットとの間で、特徴再構成損失（内容）とスタイル再構成損失（質感）を定義し最適化する。
残差ブロック、ダウンサンプリング/アップサンプリング、tanh出力を備えたフィードフォワード画像変換ネットワークf_Wを訓練し、画像を[0,255]の範囲に生成する。
スタイル転送用にはスタイルターゲットごと、超解像用にはアップサンプリング倍率ごとに別々のネットワークを訓練する。
必要に応じてピクセル損失または総変動損失を組み込む；訓練は主に知覚的損失に依拠する。
2つのタスクで評価する：スタイル転送（Gatys らと比較）と単一画像超解像（×4および×8）。

実験結果

リサーチクエスチョン

RQ1事前学習済み分類器からの知覚的損失は、速いフィードフォワードネットワークが最適化ベースのスタイル転送結果を近似することを可能にするか？
RQ2ピクセル単位の損失と比較して、知覚的損失で訓練することは単一画像超解像の視覚品質と知覚的リアリズムを向上させるか？
RQ3スタイル転送において、高次層の知覚特徴は内容とテクスチャのどの程度を保持するか？
RQ4提案手法は、訓練サイズを超える高解像度の画像に対してどの程度一般化するか？

主な発見

スタイル転送ネットワークはGatys らと質的に類似した結果を達成するが、速度は約3オーダー数倍高速で、リアルタイムまたはビデオレート処理を可能にする（512×512画像で約20 FPS）。
超解像では、知覚的損失で訓練されたネットワークが視覚的に心地よい細部とエッジを生成し、ピクセル単位の損失法よりも構造をよく捉えるが、テクスチャや高周波アーティファクトの影響でPSNR/SSIMはわずかに低下する可能性がある。
この手法は完全畳み込み方式でより大きな画像にも一般化し、訓練サイズより大きな入力にも適用できる。
知覚的損失は、損失ネットワークから変換ネットワークへ意味的知識を効果的に転移し、意味的に意識された画像変換を可能にする。
この手法は、既存のスタイル転送目的（Gatys ら）と統合しつつ、最適化ベースの生成より大幅な速度改善を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。