[論文レビュー] SwinIR: Image Restoration Using Swin Transformer
SwinIR は、Swin Transformer ベースのアーキテクチャを用い、浅層/深層特徴抽出および残差 SWin Transformer ブロックを組み合わせることで、パラメータ数を抑えつつ、SR、ノイズ除去、JPEG アーティファクト低減を含む画像復元タスクで競争力のある性能を発揮する。
Image restoration is a long-standing low-level vision problem that aims to restore high-quality images from low-quality images (e.g., downscaled, noisy and compressed images). While state-of-the-art image restoration methods are based on convolutional neural networks, few attempts have been made with Transformers which show impressive performance on high-level vision tasks. In this paper, we propose a strong baseline model SwinIR for image restoration based on the Swin Transformer. SwinIR consists of three parts: shallow feature extraction, deep feature extraction and high-quality image reconstruction. In particular, the deep feature extraction module is composed of several residual Swin Transformer blocks (RSTB), each of which has several Swin Transformer layers together with a residual connection. We conduct experiments on three representative tasks: image super-resolution (including classical, lightweight and real-world image super-resolution), image denoising (including grayscale and color image denoising) and JPEG compression artifact reduction. Experimental results demonstrate that SwinIR outperforms state-of-the-art methods on different tasks by $ extbf{up to 0.14$\sim$0.45dB}$, while the total number of parameters can be reduced by $ extbf{up to 67%}$.
研究の動機と目的
- Transformer ベースのモデルが画像復元に対して有効であることの動機付けと実証。
- 高品質な画像復元タスクのための Swin Transformer ベースのアーキテクチャ、SwinIR の提案。
- SwinIR がパラメータ数を抑えつつ、最先端の CNN ベース手法を上回ることができることの示唆。
提案手法
- 浅層特徴抽出、深層特徴抽出、および高品質な画像再構成の三つのモジュールからなる SwinIR の提案。
- 深層特徴は K 段の residual Swin Transformer ブロックを介して抽出され、それぞれがいくつかの Swin Transformer 層と残差畳み込み経路を含む。
- 再構成モジュールで浅層と深層特徴を融合し、高品質な画像を生成し、低周波情報を保持するためのスキップ接続を導入。
- 深層特徴抽出後に 3x3 の畳み込みを用いて帰納バイアスを導入して特徴融合を行う。
- 古典的な SR および実世界 SR には L1 損失で、ノイズ低減および JPEG アーティファクト低減には Charbonnier 損失で、必要に応じて実世界 SR のために GAN/知覚損失を併用する。
実験結果
リサーチクエスチョン
- RQ1Swin Transformer ベースのアーキテクチャは、古典的・実世界・軽量な画像 SR において CNN ベースの手法を上回ることができるか。
- RQ2残差 Swin Transformer ブロックは、モデルの効率性を維持しつつ高周波のディテールを回復するのに有効か。
- RQ3SwinIR は、他の最先端手法と比べて画像ノイズ除去と JPEG アーティファクト低減でどのような性能を示すか。
- RQ4残差接続や畳み込み末端ブロックといったアーキテクチャの選択が復元性能に与える影響はどの程度か。
主な発見
- SwinIR は、複数の SR データセットで最先端または競争力のある PSNR/SSIM を、CNNベース手法の多くよりも少ないパラメータで達成する。
- SwinIR は、より大きな劣化モデルとデータセットで学習した実世界 SR に対して強力な性能を示し、条件次第で IPT を上回る。
- アブレーション実験では、RSTB の残差接続が PSNR を大幅に改善し、特徴強化には 3x3 畳み込みが 1x1 や複数の小さな畳み込みよりも優れている。
- Swin Transformer ベースのアプローチは収束とデータ効率が良く、DIV2K および DIV2K+Flickr2K の学習データで良好に動作する。
- ノイズ除去において、SwinIR は複数のデータセットとノイズレベルで伝統的手法およびいくつかの CNN ベース手法を上回り、いくつかのベースラインより少ないパラメータで済む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。