QUICK REVIEW

[論文レビュー] Blind Super-Resolution Kernel Estimation using an Internal-GAN

Sefi Bell-Kligler, Assaf Shocher|arXiv (Cornell University)|Sep 14, 2019

Advanced Image Processing Techniques被引用数 215

ひとこと要約

KernelGANは単一のLR画像上で画像特有の内部GANを訓練し、その真のSRカーネルを推定することで、カーネルを既存のSR手法へ組み込んで真のBlind-SRを実現します。外部データを使わずに、実画像および非理想的なLR画像で最先端の結果を達成します。

ABSTRACT

Super resolution (SR) methods typically assume that the low-resolution (LR) image was downscaled from the unknown high-resolution (HR) image by a fixed 'ideal' downscaling kernel (e.g. Bicubic downscaling). However, this is rarely the case in real LR images, in contrast to synthetically generated SR datasets. When the assumed downscaling kernel deviates from the true one, the performance of SR methods significantly deteriorates. This gave rise to Blind-SR - namely, SR when the downscaling kernel ("SR-kernel") is unknown. It was further shown that the true SR-kernel is the one that maximizes the recurrence of patches across scales of the LR image. In this paper we show how this powerful cross-scale recurrence property can be realized using Deep Internal Learning. We introduce "KernelGAN", an image-specific Internal-GAN, which trains solely on the LR test image at test time, and learns its internal distribution of patches. Its Generator is trained to produce a downscaled version of the LR test image, such that its Discriminator cannot distinguish between the patch distribution of the downscaled image, and the patch distribution of the original LR image. The Generator, once trained, constitutes the downscaling operation with the correct image-specific SR-kernel. KernelGAN is fully unsupervised, requires no training data other than the input image itself, and leads to state-of-the-art results in Blind-SR when plugged into existing SR algorithms.

研究の動機と目的

SRカーネルが未知で、現実世界のBlind-SRの必要性と潜在的に非理想的であることを動機づける。
クロススケールのパッチ再発を活用した、教師なし・画像特異的なカーネル推定法を提案する。
推定されたSRカーネルが、既存のSRアルゴリズムと組み合わせたときにSR性能を向上させることを示す。

提案手法

KernelGANを導入する：深層線形生成器とパッチベースの識別器を用いた画像特異的内部GANを、LR画像の切り抜きから訓練する。
生成器は、ダウンスケーリング後の画像のパッチ分布を元のLR画像のパッチ分布と区別不能にするダウンスケーリング操作を学習する。
生成器の層を畳み込みてSR-カーネルを明示的に抽出し、カーネル特性（総和が1、中心性、疎性）を課す微分可能な正則化を適用する。
解釈性と最適化の安定性を保ちながら、SR-カーネルに適合させるために深層線形生成器（5層）を用いる。
複数スケール（例：k2、k4はk2からカーネルの畳み込み/拡張関係でanalyticに得る）を導出し、マルチスケールのBlind-SRを可能にする。
約3,000イテレーションのADAMでGANを訓練し、パッチベースのD-mapを用いてGをターゲットパッチ分布へ誘導する。
学習したSR-カーネルを非盲SRアルゴリズムへ組み込み、カーネル推定の精度とSR性能を評価する。

実験結果

リサーチクエスチョン

RQ1単一のLR画像から真のSR-カーネルを推定するための、画像特異的で監視なしのGANは有用か。
RQ2画像特異的SRカーネルを既存のSR手法へ組み込んだとき、実データ/非理想的LRデータで最先端のBlind-SR性能を達成するか。
RQ3安定した収束のためには、画像特異的SR-カーネル推定には深層線形生成器の方が単一層生成器より有利か。
RQ4KernelGANの1回の実行から、異なるスケールのカーネルをどれだけ良く導出できるか。
RQ5KernelGAN推定カーネルを用いた場合、以前のカーネル推定法と比べてPSNR/SSIMにどの程度の定量的な利得があるか。

主な発見

手法	×2 PSNR/SSIM	×4 PSNR/SSIM
Bicubic Interpolation	28.731 / 0.8040	25.330 / 0.6795
SotA SR algorithms (with bicubic kernel + ZSSR)	29.102 / 0.8215	25.605 / 0.6911
SotA SR algorithms (with EDSRplus)	29.172 / 0.8216	25.638 / 0.6928
SotA SR algorithms (with RCANplus)	29.198 / 0.8223	25.659 / 0.6936
PDN (NTIRE’18 winner)	-	26.340 / 0.7190
KernelGAN (Ours) + SRMD (NTIRE winner)	29.565 / 0.8564	25.711 / 0.7265
KernelGAN (Ours) + ZSSR	30.363 / 0.8669	26.810 / 0.7316
Ground-truth kernel + SRMD	31.962 / 0.8955	27.375 / 0.7655
Ground-truth kernel + ZSSR (Upper bound)	32.436 / 0.8992	27.527 / 0.7446
Ground-truth kernel baseline (alternative)	-	-

KernelGANはZSSRや他のSR手法と組み合わせると、カーネルが非理想的または未知の場合でも非盲SRに比べて大幅な改善をもたらす。
KernelGANベースのカーネル推定は、SRアルゴリズムと組み合わせた場合、Michaeli & Irani（事前のカーネル推定器）より視覚的および定量的指標の両方で優れている。
DIV2KRK Blind-SRベンチマークで、KernelGANは×2スケールで従来法より約1 dBのPSNR改善、×4スケールで約0.47 dB改善をZSSRと組み合わせた場合に達成。
13×13受容野を持つ深層線形生成器は、カーネル推定において単一層生成器よりも顕著に優れている。
訓練済みk2からカーネルの畳み込み/拡張関係を用いて高次スケールのカーネル（例：k4）を求める analytically への道を提供する。
実データ実験では、KernelGANはより忠実なSR-カーネル推定を提供し、知覚的および数値的SR品質の向上につながる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。