QUICK REVIEW

[論文レビュー] Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution

Long Sun, Jiangxin Dong|arXiv (Cornell University)|Feb 27, 2023

Advanced Image Processing Techniques被引用数 13

ひとこと要約

SAFMNは空間的に適応的な特徴変調と畳み込みチャンネルミキサーを備えた軽量なViT風ブロックを導入し、大幅にパラメータとメモリを削減しつつ競合的なSR性能を実現。多くの効率的SR手法を効率性の点で上回る。

ABSTRACT

Although numerous solutions have been proposed for image super-resolution, they are usually incompatible with low-power devices with many computational and memory constraints. In this paper, we address this problem by proposing a simple yet effective deep network to solve image super-resolution efficiently. In detail, we develop a spatially-adaptive feature modulation (SAFM) mechanism upon a vision transformer (ViT)-like block. Within it, we first apply the SAFM block over input features to dynamically select representative feature representations. As the SAFM block processes the input features from a long-range perspective, we further introduce a convolutional channel mixer (CCM) to simultaneously extract local contextual information and perform channel mixing. Extensive experimental results show that the proposed method is $3\times$ smaller than state-of-the-art efficient SR methods, e.g., IMDN, in terms of the network parameters and requires less computational cost while achieving comparable performance. The code is available at https://github.com/sunny2109/SAFMN.

研究の動機と目的

計算資源とメモリが限られた低電力デバイス向けの効率的なSRを動機づける。
SRのために長距離特徴相互作用を活用する軽量ネットワークを開発する。
全球適応性と局所コンテキストを融合する SAFM と CCM コンポーネントを導入する。
先端の軽量SRモデルと比較した際の精度–効率の優れたトレードオフを示す。

提案手法

SAFMブロックを用いて長距離特徴相互作用を可能にするマルチスケール空間適応特徴変調（SAFM）ブロックを採用する。
局所文脈を符号化し、効率的にチャンネルミキシングを行う畳み込みチャンネルミキサー（CCM）を導入する。
SAFMとCCMをLayerNormベースの処理と組み合わせた特徴ミキシングモジュール（FMM）を積み重ねる。
高周波再構成を促進するためにL1損失とFFTベースの周波数損失の組み合わせで訓練する。
軽量アップサンプラーとグローバル残差接続を用いてHR画像を再構成する。
適応的最大プーリングを用いた特徴ピラミッドを用いてSAFM用の多スケール特徴を生成する。

実験結果

リサーチクエスチョン

RQ1SAFMベースの軽量モジュールは、より重いモデルと同等のSR性能を達成できるか。
RQ2SAFMとコンパクトなCCMを組み合わせることで、精度と効率の効果的なバランスを提供できるか。
RQ3マルチスケール表現と正規化の選択がSR性能と安定性にどのような影響を与えるか。
RQ4SAFMNはパラメータ数、FLOPs、メモリ使用量の点で最先端の効率的SRモデルと比較してどうか。

主な発見

手法	スケール	#Params [K]	#FLOPs [G]	#Acts [M]	Set5 PSNR/SSIM	Set14 PSNR/SSIM	B100 PSNR/SSIM	Urban100 PSNR/SSIM	Manga109 PSNR/SSIM
SAFMN	×4	228	13.05	71.19	30.31/0.8344	30.23/0.9036	30.31/0.9049	30.23/0.9036	30.31/0.9049
IMDN [19]	×4	703	41	108	32.21/0.8948	28.58/0.7811	27.56/0.7353	26.04/0.7838	30.45/0.9075
ShuffleMixer [41]	×4	415	43	404	32.21/0.8953	28.66/0.7827	27.61/0.7366	26.08/0.7835	30.65/0.9093
LAPAR-A [27]	×4	659	94	452	32.15/0.8944	28.61/0.7818	27.61/0.7366	26.14/0.7871	30.42/0.9074
CARN-M [1]	×4	415	46	327	31.92/0.8903	28.42/0.7762	27.44/0.7304	25.62/0.7694	-

SAFMNは、最先端の効率的SR手法と比較して大幅に少ないパラメータ数とメモリ使用で競争力のあるSR性能を達成する。
x4SRで、SAFMNはCARNより約85%、IMDNより約66%、ShuffleMixerより約42%のパラメータを削減し、アクティベーションはそれぞれ約60%、29%、71%少なくなる。
マルチスケールのSAFM表現は長距離特徴相互作用を可能にし、メモリを抑えつつ再構成を改善する。
CCMは局所コンテキストとチャンネルミキシングを低いメモリオーバーヘッドで効果的に符号化する。
LayerNormは安定した訓練とBN系や他の正規化手法と比較して性能向上に必須である。
アブレーションにより、SAFMとCCMの構成要素がベースラインに対する性能向上に累積的に寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。