[論文レビュー] HAT: Hybrid Attention Transformer for Image Restoration
HAT は ハイブリッド アテンション トランスフォーマーを導入し、ウィンドウベースの自己注意とチャネル注意を組み合わせ、オーバーラップするクロスアテンション モジュールを組み込んで入力ピクセルをより多く活性化し、同一タスクの事前学習戦略で性能を向上させる画像復元を実現します。
Transformer-based methods have shown impressive performance in image restoration tasks, such as image super-resolution and denoising. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for better restoration, we propose a new Hybrid Attention Transformer (HAT). It combines both channel attention and window-based self-attention schemes, thus making use of their complementary advantages. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally adopt a same-task pre-training strategy to further exploit the potential of the model for further improvement. Extensive experiments have demonstrated the effectiveness of the proposed modules. We further scale up the model to show that the performance of the SR task can be greatly improved. Besides, we extend HAT to more image restoration applications, including real-world image super-resolution, Gaussian image denoising and image compression artifacts reduction. Experiments on benchmark and real-world datasets demonstrate that our HAT achieves state-of-the-art performance both quantitatively and qualitatively. Codes and models are publicly available at https://github.com/XPixelGroup/HAT.
研究の動機と目的
- 既存の Transformer ベースの画像復元モデルが入力ピクセル情報を活用する際の制約を理解する。
- ハイブリッド アテンションとオーバーラップ クロスアテンションを用いて入力ピクセルをより多く活性化する新規 Backbone を提案し、復元品質を向上させる。
- SR ほかの IR タスクにおいて大規模データでの同一タスク事前学習の有効性を示す。
- HAT のスケーラビリティと SR、実世界SR、デノイジング、圧縮ノイズ低減への適用性を示す。
提案手法
- HAT の設計。浅層特徴抽出、複数の RHAGs を用いた深層特徴抽出、再構成から構成される。
- 標準 Swin Transformer ブロックを Hybrid Attention Blocks (HAB) に置換し、(S)W-MSA と情報活用を拡張する並列の Channel Attention Block (CAB) を含める。
- 直接的にウィンドウ間相互作用を強化する Overlapping Cross-Attention Block (OCAB) を導入。
- HAB で大きなウィンドウサイズを使用して自己注意の範囲を広げ、CAB を組み込んで小さな融合ウェイト alpha でグローバルなチャネル情報を活用。
- 異なるウィンドウサイズの Overlapping Cross-Attention (OCA) を実装してクロスウィンドウのアテンションを可能にする。
- 同一タスクの事前学習戦略:同じ復元タスクの ImageNet で事前学習を行い、ターゲットデータセットで微調整してデータの規模と多様性を活用。
実験結果
リサーチクエスチョン
- RQ1ハイブリッドアテンション機構は Transformer ベースの IR モデルが利用する入力ピクセルの範囲を改善できるか。
- RQ2ウィンドウサイズを大きくし、クロスウィンドウアテンションとチャネル注意を統合することで SR および IR の改善が測定可能になるか。
- RQ3 overlapped クロスアテンションはクロスウィンドウ情報の流れにどのような影響を与えるか。
- RQ4大規模データでの同一タスク事前学習は SR および他の IR タスクに実質的な恩恵をもたらすか。
- RQ5HAT は SR、実世界 SR、デノイジング、圧縮ノイズ低減など複数の IR タスクで最先端メソッドと比較してどう機能するか。
主な発見
| Window Size | Set5 | Set14 | BSD100 | Urban100 | Manga109 |
|---|---|---|---|---|---|
| (8,8) | 32.88 | 29.09 | 27.92 | 27.45 | 32.03 |
| (16,16) | 32.97 | 29.12 | 27.95 | 27.81 | 32.15 |
- HAT は SR タスクで最先端メソッドを顕著に上回り、SR 実験で 0.3 dB から 1.2 dB のゲインが報告されている。
- 自己注意のウィンドウサイズを 16 に拡大し CAB を統合すると、活用される入力ピクセルの範囲が大幅に拡大され、質感再現が改善される。
- アブレーション研究により OCAB と CAB が追加の PSNR 増加に寄与し(データセットにより約 0.1–0.16 dB 程度)、Diffusion Index の向上を示し、より広いピクセル活用を示す。
- ImageNet での同一タスク事前学習戦略はさらに性能を向上させ、SR トランスフォーマーモデルに対する大規模データの重要性を示している。
- HAT はより大きなバリアント(例:HAT-L)で効果的にスケールし、実世界 SR、ガウシアンデノイジング、圧縮アーティファクト低減における最先端性能を拡張する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。