QUICK REVIEW

[論文レビュー] SRPGAN: Perceptual Generative Adversarial Network for Single Image Super Resolution

Bingzhe Wu, Haodong Duan|arXiv (Cornell University)|Dec 16, 2017

Advanced Image Processing Techniques参考文献 26被引用数 42

ひとこと要約

この論文では、従来のピクセル単位の損失関数に代わり、識別器の特徴から導出された新しいロバストな知覚損失を用いる、単一画像超解像のための知覚的生成対抗ネットワーク（SRPGAN）を提案する。コンテンツ保持にチャボニエール損失を組み合わせ、敵対的学習を実施することで、構造的類似度（SSIM）において最先端の性能を達成し、特に大きなスケーリング要因（4xおよび8x）において、よりシャープで現実的で、詳細豊かな高解像度画像を生成する。

ABSTRACT

Single image super resolution (SISR) is to reconstruct a high resolution image from a single low resolution image. The SISR task has been a very attractive research topic over the last two decades. In recent years, convolutional neural network (CNN) based models have achieved great performance on SISR task. Despite the breakthroughs achieved by using CNN models, there are still some problems remaining unsolved, such as how to recover high frequency details of high resolution images. Previous CNN based models always use a pixel wise loss, such as l2 loss. Although the high resolution images constructed by these models have high peak signal-to-noise ratio (PSNR), they often tend to be blurry and lack high-frequency details, especially at a large scaling factor. In this paper, we build a super resolution perceptual generative adversarial network (SRPGAN) framework for SISR tasks. In the framework, we propose a robust perceptual loss based on the discriminator of the built SRPGAN model. We use the Charbonnier loss function to build the content loss and combine it with the proposed perceptual loss and the adversarial loss. Compared with other state-of-the-art methods, our method has demonstrated great ability to construct images with sharp edges and rich details. We also evaluate our method on different benchmarks and compare it with previous CNN based methods. The results show that our method can achieve much higher structural similarity index (SSIM) scores on most of the benchmarks than the previous state-of-art methods.

研究の動機と目的

ピクセル単位の損失関数（例：L2）が、ぼやけた、過度に滑らかにされた超解像画像を生成するという限界を是正すること。
PSNR最適化手法にとどまらない、知覚的品質および高周波数成分の復元を向上させること。
SRGANで用いられる外部のVGGネットワークを必要とせず、識別器ネットワークの特徴を活用することで、よりロバストで効率的な知覚損失を開発すること。
定量的指標（SSIM）および視覚的品質の両面で、大きなアップスケーリング要因（4x、8x）において優れた性能を達成すること。

提案手法

識別器の内部特徴から直接導出された、新たな知覚損失関数を提案し、ロバスト性と知覚的リアリズムを向上させる。
オーバーサンプリングに敏感でないよう、L2またはL1損失と比較して訓練の安定性を向上させるために、チャボニエール損失関数をコンテンツ損失として使用する。
チャボニエールコンテンツ損失、提案された識別器ベースの知覚損失、および敵対的損失を統合した目的関数を生成器と識別器に適用する。
バッチ正規化の代わりに、生成器でインスタンス正規化を採用することで、特徴表現と訓練安定性を向上させる。
画像対画像変換モデルをインspiredしたGANベースのフレームワークを採用し、生成器が高解像度画像を生成し、識別器が本物と生成画像を区別する。
知覚的品質、コンテンツ忠実性、敵対的リアリズムのバランスをとる統合損失関数を用いて、モデルをエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1識別器の内部特徴から導出された知覚損失は、外部VGGベースの知覚損失を上回る性能を示せるか？
RQ2L2損失をチャボニエール損失に置き換えることで、超解像結果の品質と安定性が向上するか？
RQ3識別器から導出された知覚損失を備えたGANベースのフレームワークは、ピクセル単位の損失に基づくSISR手法よりも高いSSIMと優れた視覚的品質を達成できるか？
RQ4提案手法は、大規模なアップスケーリング要因（例：4x、8x）において、最先端のアプローチと比較してどのように性能を発揮するか？
RQ5知覚損失を削除するか、L2損失に置き換えると、最終的な画像品質およびSSIMスコアにどのような影響を与えるか？

主な発見

SRPGANは、多数のベンチマークで最高のSSIMスコアを達成し、Set14では0.786、BSDS100では0.749を記録し、以前の最先端手法を上回った。
提案された知覚損失を用いて訓練したモデルは、知覚損失なしの同じモデル（SSIM 0.754）と比較して顕著に高いSSIM（Set14で0.786）を達成しており、知覚損失の重要性を示している。
視覚的比較では、SRPGANが顔のひげやテクスチャなどの微細なディテールをL2損失ベースのモデルよりも正確に再構築しており、それらはぼやけた出力となるのに対し、SRPGANは明確なディテールを再現している。
チャボニエール損失を用いたモデルは、L2またはL1コンテンツ損失よりも収束が早く、同等の結果を得るために必要な訓練エポック数が少ない。
外部VGGネットワークを必要とせず、SRGANよりも知覚的品質が優れており、特にサルのひげのような微細なディテールの再構築において顕著な優位性を示した。
一方で、モデルは高倍率での拡大時にチェス盤アーチファクトを示すことがあり、これは転置畳み込みベースのGANに共通する既知の制限であり、今後の研究の対象として特定された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。