[論文レビュー] KBNet: Kernel Basis Network for Image Restoration
KBNet は カーネル基底アテンション(KBA)と マルチアクシス特徴量フュージョン(MFF)ブロックを導入し、画像復元の空間情報を適応的に集約します。ノイズ除去、雨天除去、デブラーリングのタスク全体で、計算コストを抑えつつ最先端の結果を達成します。
How to aggregate spatial information plays an essential role in learning-based image restoration. Most existing CNN-based networks adopt static convolutional kernels to encode spatial information, which cannot aggregate spatial information adaptively. Recent transformer-based architectures achieve adaptive spatial aggregation. But they lack desirable inductive biases of convolutions and require heavy computational costs. In this paper, we propose a kernel basis attention (KBA) module, which introduces learnable kernel bases to model representative image patterns for spatial information aggregation. Different kernel bases are trained to model different local structures. At each spatial location, they are linearly and adaptively fused by predicted pixel-wise coefficients to obtain aggregation weights. Based on the KBA module, we further design a multi-axis feature fusion (MFF) block to encode and fuse channel-wise, spatial-invariant, and pixel-adaptive features for image restoration. Our model, named kernel basis network (KBNet), achieves state-of-the-art performances on more than ten benchmarks over image denoising, deraining, and deblurring tasks while requiring less computational cost than previous SOTA methods.
研究の動機と目的
- 画像復元のための静的なCNNカーネルと高コストなピクセル単位カーネル予測を超えた適応的な空間情報集約を動機づける。
- Kernel Basis Attention(KBA)を提案し、カーネル基底を学習し、ピクセルごとに適応的にフュージ(融合)する。
- Multi-axis Feature Fusion(MFF)を導入し、チャネル別、空間不変、ピクセル適応型の特徴を組み合わせる。
- KBA と MFF を U-Net フレームワーク内に統合し、デノイジング、デブラー、DERAINING を計算効率とともに改善する。
提案手法
- 学習可能なカーネル基底 W は、すべての場所にわたる代表的な局所パターンをモデル化する。
- 軽量なフュージョン分岐は、ピクセルごとの係数 F を予測し、カーネル基底を線形結合する。
- F で結合されたカーネル M は、変換特徴 X_e に対して適応的なグループ畳み込みを行う。
- MFF ブロックには、空間不変特徴の深さ方向3x3畳み込み、チャネルアテンション、KBA ベースの空間適応の3つの並列経路があり、要素ごとの積で統合される。
- KBNet の変種 KBNet_s と KBNet_l は FFN の設計とモデルの複雑さが異なる。
- KBNet はエンコーダ/デコーダ段階とスキップ接続を備えた U-Net に組み込まれ、デノイジング、デレイニング、デブラーリングを実現する。
実験結果
リサーチクエスチョン
- RQ1カーネル基底アプローチは、畳み込みの誘導バイアスを保ちながら適応的な空間集約を提供できるか。
- RQ2KBA をマルチアクシス特徴量フュージョン戦略と結合することで、従来のSOTA手法よりも効率的にデノイジング、デレイニング、デブラーリングの品質を向上させられるか。
- RQ3カーネル基底の数とフュージョン戦略が、性能と計算量にどのような影響を与えるか。
- RQ4KBNet は accuracy と MACs の点で、トランスフォーマー系や他の動的集約手法とどのように比較されるか。
- RQ5提案手法は、現実世界のノイズ・劣化画像(SIDD および SenseNoise)および合成ベンチマークにも一般化できるか。
主な発見
- KBNet は、デノイジング、デレイニング、デブラーリングの十を超えるベンチマークで最先端の性能を達成する。
- KBA モジュールは、学習可能なカーネル基底を融合して画素ごとの適応的空間集約を可能にし、直接のピクセル予測に比べて軽量な代替手段を提供する。
- MFF ブロックは、チャネルアテンション、空間不変処理、KBA ベースの適応特徴を組み合わせ、効率を維持しつつ復元を改善する。
- ベースラインと比較して、KBNet_s/KBNet_l は精度と計算のトレードオフが有利で、KBNet_l は Restormer に対して複数のタスクで MACs を削減しつつ強力な結果を達成する。
- Gaussian デノイジングでは、KBNet_s は類似のトランスフォーマー系手法と比較して約半分の MACs で競合 PSNR/SSIM を達成し、KBNet_l はより重いモデルと比較して効率をさらに改善する。
- KBNet は SIDD および SenseNoise で現実世界のデノイジング性能が高く、いくつかの従来のSOTA 手法よりも少ない MACs で deraining と defocus deblurring に良好な一般化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。