[論文レビュー] Efficient Long-Range Attention Network for Image Super-resolution
ELANはシフト畳み込みに基づく局所特徴抽出と、共有アテンションを備えたグループ全体でのマルチスケール自己注意を導入し、長距離依存性を効率的にモデル化して画像超解像を実現し、トランスフォーマーベースのSRモデルより低い計算量で最先端の結果を達成する。
Recently, transformer-based methods have demonstrated impressive results in various vision tasks, including image super-resolution (SR), by exploiting the self-attention (SA) for feature extraction. However, the computation of SA in most existing transformer based models is very expensive, while some employed operations may be redundant for the SR task. This limits the range of SA computation and consequently the SR performance. In this work, we propose an efficient long-range attention network (ELAN) for image SR. Specifically, we first employ shift convolution (shift-conv) to effectively extract the image local structural information while maintaining the same level of complexity as 1x1 convolution, then propose a group-wise multi-scale self-attention (GMSA) module, which calculates SA on non-overlapped groups of features using different window sizes to exploit the long-range image dependency. A highly efficient long-range attention block (ELAB) is then built by simply cascading two shift-conv with a GMSA module, which is further accelerated by using a shared attention mechanism. Without bells and whistles, our ELAN follows a fairly simple design by sequentially cascading the ELABs. Extensive experiments demonstrate that ELAN obtains even better results against the transformer-based SR models but with significantly less complexity. The source code can be found at https://github.com/xindongzhang/ELAN.
研究の動機と目的
- 標準の自己注意の高い計算負担を減らすため、SRにおける効率的な長距離モデリングを動機づける。
- 局所特徴抽出を長距離アテンションブロックに積み上げる、単純で効果的なアーキテクチャを提案する。
- SR品質を損なうことなく、アテンション計算を加速しメモリ使用量を削減する仕組みを開発する。
提案手法
- 計算量が1x1 convに近い形で局所受容野を拡張するために、シフト畳み込みを用いる。
- 異なるウィンドウサイズを持つ複数の非重複特徴量グループ上で自己注意を計算する、グループ-wiseマルチスケール自己注意(GMSA)を導入する。
- 演算を削減するために layer normalization を除去し、対称な埋め込みガウス空間を用いることで高速化された自己注意(ASA)を組み込む。
- 隣接するSAモジュール間でアテンションスコアを再利用する共有アテンション機構を適用して効率化する。
- ELABブロックを、2つのshift-conv層と1つのGMSAモジュールをカスケードさせて組み立て、浅い特徴抽出器とHR再構成を備えたELANアーキテクチャを形成する。
実験結果
リサーチクエスチョン
- RQ1標準のトランスフォーマーの重いコストなしに、SRのための長距離自己注意を効率的にモデル化できるか。
- RQ2シフト畳み込みに基づく局所特徴抽出と、マルチスケールのグループ別アテンションの組み合わせは、計算コストを抑えつつSR性能を向上させるか。
- RQ3アテンションスコアを層間で共有して推論を高速化しつつ、品質の著しい低下を避けられるか。
主な発見
- ELANは、他のトランスフォーマー系手法と比べてはるかに低いレイテンシとパラメータ数で、最先端のSR性能に匹敵する。
- GMSAは、複数のウィンドウサイズを持つことで長距離依存に対してより大きな受容野を提供しつつ計算コストを抑制する。
- 共有アテンションは推論時の計算を削減し、PSNR/SSIMの損失を最小限に抑える。
- シフト畳み込みベースの局所特徴抽出器は、追加の複雑さを増さずに受容野を効率的に拡張する。
- アブレーション研究は、shift-conv、ASA、GMSA、および共有アテンションを組み合わせたELAB設計が、SwinIR-lightと同等の品質で約4.5倍の速度向上をもたらすことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。