[論文レビュー] SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution
SwinFIRはSwinIRを拡張し、グローバル情報を捉えるためのFast Fourier Convolutionに基づくSpatial Frequency Blockを導入するとともに、データ拡張と特徴量アンサンブルを取り入れ、画像超解像において最先端の結果を達成します。
Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.
研究の動機と目的
- 初期層でグローバル情報を活用することによって画像超解像度の改善を動機づける。
- Fast Fourier Convolutionと局所CNN特徴を統合するグローバル特徴抽出器を設計する。
- SR性能を向上させるための訓練時の改善(損失関数、データ拡張、事前学習)を探る。
- 追加のトレーニングや推論時間を増やさずに結果を向上させるゼロコストのポスト処理アンサンブルを提案する。
提案手法
- 深層特徴抽出におけるSwinIRの畳み込みを、空間CNN経路と周波数領域のFFT経路を組み合わせたSpatial Frequency Block (SFB)に置換する。
- 周波数ブランチでFast Fourier Convolution (FFC)を用いてグローバル情報を捉え、残差の空間経路と融合する。
- トレーニングの安定性と性能のためにL1/L2の代わりにCharbonnier損失を採用する。
- ピクセル領域のデータ拡張(チャネルシャッフル、Mixup など)を適用して一般化を向上させる。
- トレーニング時間や推論時間を増やすことなく、複数の学習済みモデルをアンサンブルする特徴量アンサンブル後処理技術を導入する。
実験結果
リサーチクエスチョン
- RQ1Spatial Frequency BlockはSRにおいてグローバル情報を効果的に捕捉し、純粋に局所窓に基づくトランスフォーマーを上回ることができるか?
- RQ2この設定でチャネルシャッフルやMixupなどのデータ拡張戦略はSR性能を有意に向上させるか?
- RQ3ゼロコストの特徴量アンサンブルは追加の計算を必要とせずに、データセット全体でSR結果を安定的に向上させるか?
- RQ4事前学習とより大きなウィンドウを使用した場合、標準的なSRベンチマークでSwinFIRはSwinIRおよびEDTとどう比較されるか?
主な発見
- SwinFIRはManga109でPSNR32.83 dBを達成し、最新のSwinIR手法より0.80 dB高い。
- Manga109とUrban100をまたいで、SwinFIRはSwinIRに対して約0.30〜0.80 dB、EDTに対して0.24〜0.44 dBのPSNR向上を提供します。
- SwinFIR-T(軽量版)はManga109で31.50 dBのPSNRを達成し、SwinIR/EDT-Tと同等のパラメータ数で、それぞれ0.58 dBと0.15 dB上回る。
- 提案されたデータ拡張(例:チャネルシャッフル、Mixup)と特徴量アンサンブル後処理は、訓練/推論時間を増やすことなく顕著な向上をもたらす。
- SwinFIRとそのステレオSRバリアントSwinFIRSSRは、KITTI、Middlebury、Flickr1024などのクラシック、軽量、およびステレオSRベンチマークで強力な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。