Skip to main content
QUICK REVIEW

[論文レビュー] Unfolding the Alternating Optimization for Blind Super Resolution

Zhengxiong Luo, Yan Huang|arXiv (Cornell University)|Oct 6, 2020
Advanced Image Processing Techniques参考文献 38被引用数 146
ひとこと要約

結合的にぼかしカーネルを推定し高解像度画像を復元する blind SR を実現する端から端までの深層交互ネットワーク(DAN)を提案し、交互最適化を訓練可能なネットワークへ展開する。従来の最先端手法よりも速度が速く、視覚的な結果も優れている。

ABSTRACT

Previous methods decompose blind super resolution (SR) problem into two sequential steps: extit{i}) estimating blur kernel from given low-resolution (LR) image and extit{ii}) restoring SR image based on estimated kernel. This two-step solution involves two independently trained models, which may not be well compatible with each other. Small estimation error of the first step could cause severe performance drop of the second one. While on the other hand, the first step can only utilize limited information from LR image, which makes it difficult to predict highly accurate blur kernel. Towards these issues, instead of considering these two steps separately, we adopt an alternating optimization algorithm, which can estimate blur kernel and restore SR image in a single model. Specifically, we design two convolutional neural modules, namely extit{Restorer} and extit{Estimator}. extit{Restorer} restores SR image based on predicted kernel, and extit{Estimator} estimates blur kernel with the help of restored SR image. We alternate these two modules repeatedly and unfold this process to form an end-to-end trainable network. In this way, extit{Estimator} utilizes information from both LR and SR images, which makes the estimation of blur kernel easier. More importantly, extit{Restorer} is trained with the kernel estimated by extit{Estimator}, instead of ground-truth kernel, thus extit{Restorer} could be more tolerant to the estimation error of extit{Estimator}. Extensive experiments on synthetic datasets and real-world images show that our model can largely outperform state-of-the-art methods and produce more visually favorable results at much higher speed. The source code is available at https://github.com/greatlog/DAN.git.

研究の動機と目的

  • ぼかしカーネルが未知で、1ステップのカーネル推定とSRが不適合なブラインドSRを動機づける。
  • カーネル推定と画像復元の間を交互に行う統一的な端から端までのネットワークを提案する。
  • 推定されたカーネルを用いて復元を訓練することで、カーネル推定誤差に対する堅牢性を確保する。
  • 2段階のブラインドSRパイプラインと比較して、訓練と推論の速度を向上させる。
  • 複数のデータセットを横断した合成画像と実世界画像で優れた性能を示す。

提案手法

  • カーネル推定とSRの交互最適化を実装するため、EstimatorとRestorerの2つの畳み込みモジュールを導入する。
  • 反復を固定深度の深層ネットワーク(DAN)に展開し、エンドツーエンドで訓練可能にする。
  • 基本入力と条件付き入力(SR画像とカーネル)を結合する条件付き残差ブロック(CRB)を用い、出力が条件付き入力と整合するように保つ。
  • EstimatorはLR画像とSR画像の双方を取り、PCAによって次元削減されたぼかしカーネルを推定する。RestorerはLR画像と推定されたカーネルを取り、SR画像を復元する。
  • Ground-truthではなくEstimatorの出力カーネルでRestorerを訓練し、推定誤差に対する許容性を向上させる。
  • 2つの低劣化設定(Gaussian blurと不規則カーネル)で評価し、頑健性と速度の利点を示す。

実験結果

リサーチクエスチョン

  • RQ1交互最適化に基づくエンドツーエンドネットワークは、従来の2段階のブラインドSRパイプラインを上回れるか。
  • RQ2EstimatorとRestorerを共有・反復することは、両者を共同訓練した場合にカーネル推定とSR品質を改善するか。
  • RQ3DANは合成画像と実世界画像でPSNR/SSIMと推論速度の観点でどうなるか。
  • RQ4推論時のカーネル推定誤差や反復回数の変動に対してネットワークは頑健か。

主な発見

  • DANは複数のスケールとデータセットにわたる合成データセットで、最先端のブラインドSR手法を大幅に上回る。
  • DANは推論を著しく高速化(RTX2080Tiで1画像あたり0.75s)し、KernelGAN+ZSSRより速く、いくつかのベンチマークでPSNR/SSIMでIKCを上回る。
  • Jointly training Estimator and Restorer with alternating optimization yields better kernel estimation (lower L1 error in reduced kernel space) and improved SR results, especially as kernel variance increases.
  • 交互最適化でEstimatorとRestorerを共同訓練すると、縮小カーネル空間でのL1誤差が小さく、特にカーネル分散が増加するにつれて、より良いカーネル推定とSR結果を得られる。
  • テスト時により多くの反復回数を許すと、性能がさらには向上または安定化する可能性があり、固定点を超えたモジュール間の協調を学習していることを示す。
  • 実世界のノイズ画像での実験は、DANがベースラインよりもノイズ除去とディテール復元をより信頼性高く行えることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。