QUICK REVIEW

[論文レビュー] Activating More Pixels in Image Super-Resolution Transformer

Xiangyu Chen, Xintao Wang|arXiv (Cornell University)|May 9, 2022

Advanced Image Processing Techniques被引用数 55

ひとこと要約

論文は画像超解像のためのHybrid Attention Transformer (HAT) を提案し、チャネル注意、ウィンドウベースの自己注意、重複したクロスアテンションモジュールの組み合わせによりより多くの入力ピクセルを活性化し、同一タスクの事前学習戦略を導入して、最先端の結果を達成する。

ABSTRACT

Transformer-based methods have shown impressive performance in low-level vision tasks, such as image super-resolution. However, we find that these networks can only utilize a limited spatial range of input information through attribution analysis. This implies that the potential of Transformer is still not fully exploited in existing networks. In order to activate more input pixels for better reconstruction, we propose a novel Hybrid Attention Transformer (HAT). It combines both channel attention and window-based self-attention schemes, thus making use of their complementary advantages of being able to utilize global statistics and strong local fitting capability. Moreover, to better aggregate the cross-window information, we introduce an overlapping cross-attention module to enhance the interaction between neighboring window features. In the training stage, we additionally adopt a same-task pre-training strategy to exploit the potential of the model for further improvement. Extensive experiments show the effectiveness of the proposed modules, and we further scale up the model to demonstrate that the performance of this task can be greatly improved. Our overall method significantly outperforms the state-of-the-art methods by more than 1dB. Codes and models are available at https://github.com/XPixelGroup/HAT.

研究の動機と目的

TransformerベースのSRモデルが標準的なウィンドウ付き注意を超えて利用する入力ピクセルの範囲を拡大する動機づけ。
Hybrid Attention Transformer (HAT) を提案し、チャネル注意と自己注意を融合し、クロスウィンドウ相互作用を改善するオーバーラッピングクロスアテンションを追加。
より大きなウィンドウサイズとクロスウィンドウモジュールが再構成と質感の詳細を向上させる影響を示す。
SR Transformer モデルのための大規模データを活用する同一タスク事前学習戦略を導入。
HAT（およびその大規模版の HAT-L）は標準ベンチマークで最先端のSR性能を達成することを示す。

提案手法

Swin Transformer ブロックにチャネル注意ベースの畳み込みブロック（CAB）を組み込み、グローバル情報とローカル自己注意を融合。
並列 CAB および（S/W)MSA 経路を小さなスケーリング係数 alpha と共に使用して最適化の衝突を緩和し、残差接続を持つMLPを続ける。
窓を跨いだ直接的な情報交換を可能にする、窓が重なるキー/バリューを使用する非重複クエリを持つ Overlapping Cross-Attention Block（OCAB）を採用。
自己注意の大きなウィンドウサイズ（M=16）を採用して活性化ピクセルの範囲を拡大し、クロスウィンドウの相互作用を維持するためにシフトウィンドウを使用。
Q は非重複ウィンドウから、K/V は重複ウィンドウから来る Overlapping Cross-Attention（OCA）メカニズムを導入し、バイアス項を用いたクロスウィンドウ注意を実現。
ImageNet 上で同一タスクの事前学習を行い、同じ SR タスク用にファインチューンする同一タスク事前学習戦略を提案し、学習率とトレーニング反復の配慮を行う。

実験結果

リサーチクエスチョン

RQ1再構成中に Transformer SR モデルをより多くの入力ピクセルを利用するよう強制できるか、受容範囲を拡大すると SR 品質は向上するか？
RQ2チャネル注意とウィンドウベースの自己注意を組み合わせ、クロスウィンドウ注意モジュールを追加すると、既存の SR トランスフォーマーより測定可能な SR 効得が得られるか？
RQ3より大きなウィンドウサイズとオーバーラップ Cross-Attention が定性的な質感再構成とアーティファクト低減に与える影響は？
RQ4同一タスクの大規模事前学習は ImageNet で SR トランスフォーマーに有益か、マルチタスク事前学習と比較して？
RQ5HAT および大規模版の HAT-L は標準ベンチマークの最先端 SR 手法と比較してどの程度の性能を示すか？

主な発見

HAT およびその大きな派生版は最先端の SR 手法を着実に上回り、Urban100 および Manga109 で PSNR が 0.3 dB から 1.2 dB の改善、前提訓練による大きな恩恵を報告。
CAB の統合はベースラインに対して測定可能な PSNR/SSIM の改善を提供（アブレーションで例: +0.05–0.07 dB）。
OCAB と CAB の組み合わせにより追加の利益を生み出す（Urban100 で最大約 +0.16 dB PSNR など）。
自己注意の大きなウィンドウサイズ（16x16）は SR 性能を改善し、特に Urban100 で入力ピクセルの活性化を示唆。
重複クロスアテンションはブロッキングアーティファクトを緩和し、クロスウィンドウ情報交換を強化。
ImageNet での同一タスク事前学習は HAT に顕著な利得をもたらし、HAT-L のような大きなモデルではさらに大きな利得が得られ、事前学習モデルが大きいほど利益が大きい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。