Skip to main content
QUICK REVIEW

[論文レビュー] Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution

Long Sun, Jiangxin Dong|arXiv (Cornell University)|Feb 27, 2023
Advanced Image Processing Techniques被引用数 13
ひとこと要約

SAFMNは空間的に適応的な特徴変調と畳み込みチャンネルミキサーを備えた軽量なViT風ブロックを導入し、大幅にパラメータとメモリを削減しつつ競合的なSR性能を実現。多くの効率的SR手法を効率性の点で上回る。

ABSTRACT

Although numerous solutions have been proposed for image super-resolution, they are usually incompatible with low-power devices with many computational and memory constraints. In this paper, we address this problem by proposing a simple yet effective deep network to solve image super-resolution efficiently. In detail, we develop a spatially-adaptive feature modulation (SAFM) mechanism upon a vision transformer (ViT)-like block. Within it, we first apply the SAFM block over input features to dynamically select representative feature representations. As the SAFM block processes the input features from a long-range perspective, we further introduce a convolutional channel mixer (CCM) to simultaneously extract local contextual information and perform channel mixing. Extensive experimental results show that the proposed method is $3\times$ smaller than state-of-the-art efficient SR methods, e.g., IMDN, in terms of the network parameters and requires less computational cost while achieving comparable performance. The code is available at https://github.com/sunny2109/SAFMN.

研究の動機と目的

  • 計算資源とメモリが限られた低電力デバイス向けの効率的なSRを動機づける。
  • SRのために長距離特徴相互作用を活用する軽量ネットワークを開発する。
  • 全球適応性と局所コンテキストを融合する SAFM と CCM コンポーネントを導入する。
  • 先端の軽量SRモデルと比較した際の精度–効率の優れたトレードオフを示す。

提案手法

  • SAFMブロックを用いて長距離特徴相互作用を可能にするマルチスケール空間適応特徴変調(SAFM)ブロックを採用する。
  • 局所文脈を符号化し、効率的にチャンネルミキシングを行う畳み込みチャンネルミキサー(CCM)を導入する。
  • SAFMとCCMをLayerNormベースの処理と組み合わせた特徴ミキシングモジュール(FMM)を積み重ねる。
  • 高周波再構成を促進するためにL1損失とFFTベースの周波数損失の組み合わせで訓練する。
  • 軽量アップサンプラーとグローバル残差接続を用いてHR画像を再構成する。
  • 適応的最大プーリングを用いた特徴ピラミッドを用いてSAFM用の多スケール特徴を生成する。

実験結果

リサーチクエスチョン

  • RQ1SAFMベースの軽量モジュールは、より重いモデルと同等のSR性能を達成できるか。
  • RQ2SAFMとコンパクトなCCMを組み合わせることで、精度と効率の効果的なバランスを提供できるか。
  • RQ3マルチスケール表現と正規化の選択がSR性能と安定性にどのような影響を与えるか。
  • RQ4SAFMNはパラメータ数、FLOPs、メモリ使用量の点で最先端の効率的SRモデルと比較してどうか。

主な発見

手法スケール#Params [K]#FLOPs [G]#Acts [M]Set5 PSNR/SSIMSet14 PSNR/SSIMB100 PSNR/SSIMUrban100 PSNR/SSIMManga109 PSNR/SSIM
SAFMN×422813.0571.1930.31/0.834430.23/0.903630.31/0.904930.23/0.903630.31/0.9049
IMDN [19]×47034110832.21/0.894828.58/0.781127.56/0.735326.04/0.783830.45/0.9075
ShuffleMixer [41]×44154340432.21/0.895328.66/0.782727.61/0.736626.08/0.783530.65/0.9093
LAPAR-A [27]×46599445232.15/0.894428.61/0.781827.61/0.736626.14/0.787130.42/0.9074
CARN-M [1]×44154632731.92/0.890328.42/0.776227.44/0.730425.62/0.7694-
  • SAFMNは、最先端の効率的SR手法と比較して大幅に少ないパラメータ数とメモリ使用で競争力のあるSR性能を達成する。
  • x4SRで、SAFMNはCARNより約85%、IMDNより約66%、ShuffleMixerより約42%のパラメータを削減し、アクティベーションはそれぞれ約60%、29%、71%少なくなる。
  • マルチスケールのSAFM表現は長距離特徴相互作用を可能にし、メモリを抑えつつ再構成を改善する。
  • CCMは局所コンテキストとチャンネルミキシングを低いメモリオーバーヘッドで効果的に符号化する。
  • LayerNormは安定した訓練とBN系や他の正規化手法と比較して性能向上に必須である。
  • アブレーションにより、SAFMとCCMの構成要素がベースラインに対する性能向上に累積的に寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。