[論文レビュー] Spatial-Frequency Attention for Image Denoising
SFANetは窓ベースの空間自己注意と窓ベースの周波数チャネル注意をUNetスタイルのバックボーンで組み合わせ、拡張畳み込みの自己注意とFFTベースの周波数モデリングを用いて長距離依存性を捉え、画像ノイズ除去を行う。
The recently developed transformer networks have achieved impressive performance in image denoising by exploiting the self-attention (SA) in images. However, the existing methods mostly use a relatively small window to compute SA due to the quadratic complexity of it, which limits the model's ability to model long-term image information. In this paper, we propose the spatial-frequency attention network (SFANet) to enhance the network's ability in exploiting long-range dependency. For spatial attention module (SAM), we adopt dilated SA to model long-range dependency. In the frequency attention module (FAM), we exploit more global information by using Fast Fourier Transform (FFT) by designing a window-based frequency channel attention (WFCA) block to effectively model deep frequency features and their dependencies. To make our module applicable to images of different sizes and keep the model consistency between training and inference, we apply window-based FFT with a set of fixed window sizes. In addition, channel attention is computed on both real and imaginary parts of the Fourier spectrum, which further improves restoration performance. The proposed WFCA block can effectively model image long-range dependency with acceptable complexity. Experiments on multiple denoising benchmarks demonstrate the leading performance of SFANet network.
研究の動機と目的
- 小窓自己注意を超える長距離依存性モデリングを画像ノイズ除去に対して改善する動機付け。
- グローバル周波数情報を活用する窓ベースの周波数チャネル注意(WFCA)を提案。
- 浅い特徴量の受容野を拡大するために空間注意と拡張畳み込み自己注意を組み合わせる。
- WFCAブロックで窓ベースのFFTを用い、トレーニング/推論サイズの独立性を確保する。
- 複数のノイズ除去ベンチマークで最先端の性能を示す。
提案手法
- SFANetを二つのモジュール:Spatial Attention Module(SAM)とFrequency Attention Module(FAM)で導入。
- SAMは窓ベースの自己注意と多尺度拡張畳み込み自己注意(MDSA)ブロックを用い、初期スケールで受容野を拡大する。
- FAMは窓ベースの周波数チャネル注意(WFCA)を導入し、FFTを非重畳パッチに適用し、実部と虚部の周波数成分でチャネル注意を実行。
- WFCAは固定サイズパッチ上でFFTを動作させることにより、トレーニング/推論の周波数解像度の整合性を確保。
- 複素数周波数特徴は、実部+虚部チャネル注意機構を結合して処理し、パッチを再構成する逆FFTへ。
- 全体損失はCharbonnier;トレーニングは4スケールとスキップ接続を持つUNetバックボーンを使用;最終再構成は3x3畳み込み。
実験結果
リサーチクエスチョン
- RQ1窓ベースおよび拡張畳み込み自己注意は、小窓を超えるノイズ除去における長距離空間依存性を効果的に捉えられるか。
- RQ2FFTベースの周波数域注意を実部と虚部の成分と組み合わせると、純粋な空間/自己注意アプローチより復元が改善されるか。
- RQ3窓ベースWFCAブロックは頻度解像度の不整合を生じず、さまざまな画像サイズで性能を維持できるか。
- RQ4SFANetは標準ベンチマークで最先端のノイズ除去手法と比較してどうか。
主な発見
- SFANetは、複数のノイズ除去ベンチマークで最先端の性能を、最先端手法と比べて達成。
- WFCAは大きなFFTウィンドウ(例:64x64)を用いることで、グローバルな周波数情報を許容される計算複雑さで活用する。
- 傅立・実部だけではなく傅立スペクトルの実部と虚部を用いたチャネル注意は、実部のみを用いる場合より復元性能を向上させる。
- SAMにおける拡張畳み込み自己注意は、二次的な計算増加を伴わず受容野を拡大し、長距離モデリングを改善。
- SAMとFAMを備えたUNetベースのバックボーンは、RestormerやSwinIRなどのSAベースおよび非局所ノイズ除去モデルよりも、ベンチマークデータセットで上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。