[論文レビュー] SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network
SRTransGAN は、トランスフォーマーを用いた GAN を用いた単一画像超解像を提案し、トランスフォーマー生成器とビジョン変換器識別器を用いて、標準データセットで PSNR/SSIM の改善を達成します。
Image super-resolution aims to synthesize high-resolution image from a low-resolution image. It is an active area to overcome the resolution limitations in several applications like low-resolution object-recognition, medical image enhancement, etc. The generative adversarial network (GAN) based methods have been the state-of-the-art for image super-resolution by utilizing the convolutional neural networks (CNNs) based generator and discriminator networks. However, the CNNs are not able to exploit the global information very effectively in contrast to the transformers, which are the recent breakthrough in deep learning by exploiting the self-attention mechanism. Motivated from the success of transformers in language and vision applications, we propose a SRTransGAN for image super-resolution using transformer based GAN. Specifically, we propose a novel transformer-based encoder-decoder network as a generator to generate 2x images and 4x images. We design the discriminator network using vision transformer which uses the image as sequence of patches and hence useful for binary classification between synthesized and real high-resolution images. The proposed SRTransGAN outperforms the existing methods by 4.38 % on an average of PSNR and SSIM scores. We also analyze the saliency map to understand the learning ability of the proposed method.
研究の動機と目的
- image超解像におけるグローバル情報をより良く捉えるためのトランスフォーマーの活用を動機づける。
- 2xおよび4xのSR画像を生成できるトランスフォーマー ベースのエンコーダ–デコーダ生成器を開発する。
- 生成SR画像と実HR画像を効果的に識別するViTベースの識別器を設計する。
- 提案手法 SRTransGAN を最先端手法と比較評価し、トランスフォーマーブロック・レベル・学習データセットのアブレーションを分析する。
提案手法
- SRTransG というトランスフォーマー基盤の生成器と SRTransD というビジョン・トランスフォーマー識別器を用いた SRTransGAN を導入する。
- ダウンサンプリング/アップサンプリング後の結合を伴うチャネル削減を使用し、スキップ接続とスケール別特徴結合を用いた多層エンコーダ–デコーダとして SRTransG を構築する。
- チャネル上で動作し、フィードフォワードブロックにゲーティング機構を含む Multi Deconvolution 変換-attention を備えたトランスフォーマーブロック設計を採用する。
- 識別の前に HR/SR 特徴をアップサンプリングされた LR 情報と結合して条件付き GAN フレームワークに従って処理する。
- 対抗的損失を、関連研究で参照される知覚損失や補助損失と組み合わせて、2x および 4x の段階的設定で SRTransGAN を訓練する。
- トランスフォーマーブロック数・レベル・学習データセットの影響をアブレーションして性能を評価する。
- 学習挙動を理解するための定性的サリエンシーマップ解析を提供する。
実験結果
リサーチクエスチョン
- RQ1トランスフォーマー基盤の GAN は CNN ベースや他のトランスフォーマー系手法を上回る単一画像超解像を達成できるか。
- RQ2ビジョン・トランスフォーマー識別器はトランスフォーマー基盤の SR 生成器の学習にどのような影響を与えるか。
- RQ3ネットワークの深さ(トランスフォーマーブロック数)と階層的レベルが 2x および 4x の SR 性能に与える影響はどうか。
- RQ4スキップ接続を伴う漸進的 2x/4x 世代は高周波領域の細部再現を優位にするか。
主な発見
- SRTransGAN フレームワークは PSNR および SSIM の平均で既存手法に対して 4.38% の改善をもたらす。
- マルチレベルのエンコーダ–デコーダとスキップ接続を備えたトランスフォーマー基盤の生成器は、SR の高周波細部を効果的に学習する。
- ビジョン・トランスフォーマー識別器は画像パッチを活用して堅牢な real/fake 分類を行い、敵対的共同学習を補助する。
- アブレーション研究は、異なる数のトランスフォーマーブロック・レベル・学習データセットが性能に与える影響を示す。
- サリエンシーマップ解析は、SR マッピングを学習する際にモデルが注目する場所への洞察を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。