QUICK REVIEW

[論文レビュー] DeblurGAN-v2: Deblurring (Orders-of-Magnitude) Faster and Better

Orest Kupyn, Tetiana Martyniuk|arXiv (Cornell University)|Aug 10, 2019

Advanced Image Processing Techniques参考文献 50被引用数 112

ひとこと要約

DeblurGAN-v2 は柔軟で backbone-agnostic な GAN フレームワークを導入し、Feature Pyramid Network と double-scale RaGAN-LS ディスクリミネータを備え、実質的に最先端またはほぼ最先端のブラー除去を、はるかに高い効率で実現します。リアルタイム対応の軽量バックボーンを含む。

ABSTRACT

We present a new end-to-end generative adversarial network (GAN) for single image motion deblurring, named DeblurGAN-v2, which considerably boosts state-of-the-art deblurring efficiency, quality, and flexibility. DeblurGAN-v2 is based on a relativistic conditional GAN with a double-scale discriminator. For the first time, we introduce the Feature Pyramid Network into deblurring, as a core building block in the generator of DeblurGAN-v2. It can flexibly work with a wide range of backbones, to navigate the balance between performance and efficiency. The plug-in of sophisticated backbones (e.g., Inception-ResNet-v2) can lead to solid state-of-the-art deblurring. Meanwhile, with light-weight backbones (e.g., MobileNet and its variants), DeblurGAN-v2 reaches 10-100 times faster than the nearest competitors, while maintaining close to state-of-the-art results, implying the option of real-time video deblurring. We demonstrate that DeblurGAN-v2 obtains very competitive performance on several popular benchmarks, in terms of deblurring quality (both objective and subjective), as well as efficiency. Besides, we show the architecture to be effective for general image restoration tasks too. Our codes, models and data are available at: https://github.com/KupynOrest/DeblurGANv2

研究の動機と目的

GAN ベースのエンドツーエンドフレームワークでの単一画像モーションブラー除去を扱う。
Generator の一部として Feature Pyramid Network (FPN) を導入し、多段階特徴を効率的に融合する。
精度と速度のトレードオフを可能にするバックボーンの柔軟性を実現する（例：Inception-ResNet-v2 対 MobileNet 系）。
安定した学習と高い知覚品質を狙う、double-scale の Relativistic RaLSGAN 損失を用いたDiscriminator 設計を強化する。
ベンチマーク全体での効率と品質を示し、一般的な画像復元課題への適用性を示す。

提案手法

生成器に Feature Pyramid Network を組み込み、 blurred 入力から sharp 画像を生成する条件付き GAN フレームワークを用いる。
グローバルおよびパッチレベル（ローカル）ブランチを持つ multi-scale コンテキストのための double-scale RaGAN-LS ディスcriminator を採用する。
RaGAN-LS 損失を用いて DeblurGAN-v1/WGAN-GP を置き換え、学習を安定化し知覚品質を向上させる。
バックボーンをプラグアンドプレイ化し、Inception-ResNet-v2 の高品質と MobileNet/MobileNet-DSC の効率性を実現できるようにする。
Hybrid 損失 L_G = 0.5*L_p + 0.006*L_X + 0.01*L_adv として訓練する。ここで L_p はピクセル単位の MSE、L_X は VGG 特徴からの知覚損失。
データ準備を含む入力処理としてフレーム補間を用い、訓練用のより滑らかなブラーを合成する。

実験結果

リサーチクエスチョン

RQ1DeblurGAN-v2 は従来法と比較して、推論速度を大幅に改善しつつ、より高いまたは同等のブラー除去品質を達成できるか。
RQ2FPN の導入と double-scale RaGAN-LS ディスcriminator が復元品質と学習安定性にどのような影響を与えるか。
RQ3バックボーンの選択が DeblurGAN-v2 の精度/効率のトレードオフにどう影響するか。
RQ4本フレームワークはブラー除去を超える一般的な画像復元タスクへ拡張可能か。

主な発見

PSNR	SSIM	時間	FLOPS
GoPro: Inception-ResNet-v2	28.70	0.927	0.35s	411.34G
GoPro: MobileNet	28.17	0.925	0.06s	43.75G
GoPro: MobileNet-DSC	28.03	0.922	0.04s	14.83G
GoPro: DeblurGAN (earlier)	28.70	0.927	0.35s	411.34G

軽量バックボーン（MobileNet、MobileNet-DSC）を用いた DeblurGAN-v2 は、先行法より最大 100x 高速な推論を達成しつつ、SSIM/PSNR の競争力を維持する。
DeblurGAN-v2（Inception-ResNet-v2）は GoPro の定量的な SSIM/PSNR でトップを獲得し、SRN に比べ推論時間を大幅に低減している。
MobileNet-DSC 変種は GoPro-規模データで 0.04s/画像のほぼリアルタイムフレームレートを実現。
提案された FPN と double-scale RaGAN-LS ディスcriminator は、アブレーション実験でも DeblurGAN ベースラインより PSNR/SSIM を一貫して改善。
主観的評価でも DeblurGAN-v2（特に Inception-ResNet-v2 搭載時）が従来法より視覚的品質で優れており、モバイルバックボーンでも視覚的競争力を保つ。
DeblurGAN-v2 はブラー除去を超える一般的な画像復元タスクにも有望である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。