QUICK REVIEW

[論文レビュー] Rethinking the CSC Model for Natural Images

Dror Simon, Michael Elad|arXiv (Cornell University)|Sep 12, 2019

Sparse and Compressive Sensing Techniques被引用数 28

ひとこと要約

本稿では、畳み込みスパースコーディング（CSC）モデルのベイジアンMMSE近似をストライド付き畳み込みを用いて実装することで、極めて少ないパラメータ数で最先端の画像ノイズ除去性能を達成する、フィードフォワード深層ネットワークCSCNetを提案する。CSCモデルのノイズ環境下での限界を再考し、パッチ平均化にインspiredされたMMSEフレームワークに根ざさせることで、BSD68におけるPSNRスコアをDnCNNやFFDNetと同等に保ちつつ、パラメータ数を63,700にまで削減した。これは、バッチ正規化やパラメータの多いアーキテクチャに依存せずに、CSCによる構造的スパarsityを現代の深層学習で効果的に活用できることを示している。

ABSTRACT

Sparse representation with respect to an overcomplete dictionary is often used when regularizing inverse problems in signal and image processing. In recent years, the Convolutional Sparse Coding (CSC) model, in which the dictionary consists of shift-invariant filters, has gained renewed interest. While this model has been successfully used in some image processing problems, it still falls behind traditional patch-based methods on simple tasks such as denoising. In this work we provide new insights regarding the CSC model and its capability to represent natural images, and suggest a Bayesian connection between this model and its patch-based ancestor. Armed with these observations, we suggest a novel feed-forward network that follows an MMSE approximation process to the CSC model, using strided convolutions. The performance of this supervised architecture is shown to be on par with state of the art methods while using much fewer parameters.

研究の動機と目的

畳み込みスパースコーディング（CSC）モデルが、DnCNN や FFDNet といったパッチベース手法と比較して、ノイズ除去タスクにおいて性能が著しく劣ることを是正すること。
特に、パッチベース平均化（PA）方式と比較して、加法的ノイズ下での自然画像のモデリングにおいてCSCの理論的・実用的限界を調査すること。
CSCの構造的・理論的利点を保ちつつ、ノイズ環境下での弱みを克服する、教師ありフィードフォワード深層ネットワークを開発すること。
CSCに基づく最小限のパラメータ数、非残差、非正規化アーキテクチャが、DnCNN や FFDNet といった最新のSOTAノイズ除去器と同等の性能を達成できるかどうかを実証すること。

提案手法

本手法は、標準的なスパースコーディング探索に代わり、ノイズをより適切に扱える確率的推論フレームワークを採用した、CSCモデルのベイジアンMMSE近似を定式化する。
ストライド付き畳み込みを用いたフィードフォワードニューラルネットワークアーキテクチャを導入し、MMSE近似を実装する。フィルタ重みはバックプロパゲーションによりエンドツーエンドで学習される。
ネットワーク構造は、CSCのシフト不変性とグローバルスパースピアを維持するように設計されており、最終層ではフィルタリングおよび再構成されたパッチの重み付き合成により、ノイズ除去された画像推定値が得られる。
モデルは、BSD68データセット上で平均二乗誤差（MSE）損失を用いて訓練され、固定学習率10^-4を用い、50エポックごとに学習率を減衰させ、発散を防ぐためにエプシロン適応最適化手法が使用された。
バッチ正規化を回避することで、CSCピアの純粋さが保たれ、パラメータ数がネットワークの深さではなく、フィルタ数とそのサイズにのみ比例するようになる。
カラー画像への拡張は、3チャンネルフィルタを用い、カラーBSD68データセットで訓練することで実現され、最先端手法と同等の性能を維持した。

実験結果

リサーチクエスチョン

RQ1CSCモデルは、超解像や融合といった他の逆問題では成功しているが、なぜ画像ノイズ除去では失敗するのか？
RQ2パッチベース手法におけるパッチ平均化（PA）方式がノイズ環境下でCSCを上回る理由は何か？その背後にあるメカニズムは何か？
RQ3CSCモデルのベイジアンMMSE近似は、PAの性能利点を回復しつつ、CSCのグローバルかつシフト不変の構造を保持できるか？
RQ4CSCに基づく最小パラメータ数、非残差、非正規化の深層ネットワークは、DnCNN や FFDNet といった最新のSOTAノイズ除去器とどれほど性能を合わせられるか？

主な発見

CSCNetは、BSD68データセットにおいてノイズレベルσ=25の条件下で29.11 dBのPSNRを達成し、DnCNN や FFDNet と同等の性能を示したが、パラメータ数は63,700にまで削減された（DnCNN：556k、FFDNet：486k）。
ストライド付き畳み込み層の最適なストライドサイズはq=7またはq=8であり、パッチの独立性と相関性の最良のトレードオフが得られた。q=1（28.74 dB）やq=11（28.9 dB）では性能が低下した。
カラー画像ノイズ除去において、CSCNetはσ=50の条件下で28.00 dBを達成し、CBM3Dを上回り、FFDNet や CDnCNN と同等の性能を示した。これは、グレースケールに限らない一般化性能を示している。
すべてのノイズレベルでBM3D、WNNM、TNRD、MLPを上回り、従来のスパースコーディングベースおよび学習済みスパースコーディングベースの手法に対して一貫した改善を示した。
バッチ正規化が存在しないにもかかわらず性能に悪影響が及ばず、MMSEによる適切な近似がなされていれば、CSCピアの理論的基盤が有効に機能することを確認した。
CSCモデルのノイズ除去における失敗は本質的ではなく、特定の推論手法（特に非MMSE探索）に起因するものであり、構造的制限によるものではないという示唆が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。