QUICK REVIEW

[論文レビュー] Wide Inference Network for Image Denoising via Learning Pixel-distribution Prior

Peng Liu, Ruogu Fang|arXiv (Cornell University)|Jul 17, 2017

Image and Signal Denoising Methods参考文献 19被引用数 22

ひとこと要約

本稿では、ノイズのある画像から画素分布の事前知識を学習することで、画像のノイズ除去を向上させる、浅く広い畳み込みニューラルネットワーク（Wide Inference Networks, WIN）を提案する。特に初期層におけるフィルターサイズとチャネル幅を拡大することで、加法性ホワイトガウスノイズ（AWGN）の統計的規則性を捉え、より少ないパラメータ数とデータ量で、従来の深層ネットワークよりも最先端の性能を達成する。

ABSTRACT

We explore an innovative strategy for image denoising by using convolutional neural networks (CNN) to learn similar pixel-distribution features from noisy images. Many types of image noise follow a certain pixel-distribution in common, such as additive white Gaussian noise (AWGN). By increasing CNN's width with larger reception fields and more channels in each layer, CNNs can reveal the ability to extract more accurate pixel-distribution features. The key to our approach is a discovery that wider CNNs with more convolutions tend to learn the similar pixel-distribution features, which reveals a new strategy to solve low-level vision problems effectively that the inference mapping primarily relies on the priors behind the noise property instead of deeper CNNs with more stacked nonlinear layers. We evaluate our work, Wide inference Networks (WIN), on AWGN and demonstrate that by learning pixel-distribution features from images, WIN-based network consistently achieves significantly better performance than current state-of-the-art deep CNN-based methods in both quantitative and visual evaluations. extit{Code and models are available at \url{https://github.com/cswin/WIN}}.

研究の動機と目的

画像のノイズ除去などの低レベルビジョンタスクにおける深層CNNの一般化性能の限界と、性能向上の可能性を改善すること。
フィルターサイズとチャネル数で定義されるネットワークの幅が、ノイズ除去のための事前知識学習を向上させることを調査すること。
ノイズのある画像から画素分布の特徴を学習することで、深さに依存するアーキテクチャを上回るノイズ除去性能を達成できることを示すこと。
データ拡張に依存しない、固有のノイズ分布の事前知識を活用するデータ効率の良い学習戦略を検討すること。

提案手法

受容 field を拡大するために、初期層で大きなカーネルサイズ（7×7）と高いチャネル数（128）を用いた、浅く広いCNNアーキテクチャ（WIN5）を設計する。
訓練の安定化と事前知識推定の維持のため、バッチ正規化（BN）とリラクゼーション学習を採用し、統計的特徴のためのネットワークメモリを強化する。
ノイズあり・クリア画像ペアを用いた教師あり学習により、エンドツーエンドで学習を行い、AWGNの背後にある画素分布事前知識を学習することに焦点を当てる。
推論中に統計的事前知識を保持するために、スキップ接続を関連記憶として活用し、深さを増さずに特徴表現を向上させる。
層ごとのフィルターサイズとチャネル数を変化させた最適化により、最初の2層で128フィルタと7×7カーネルを用いた構成が最適な性能を示すことが特定された。
学習中に固定のノイズ行列（randn('seed',0) でシードされた）を適用して一貫したノイズ分布を模擬するが、これにより異なるノイズ実現間での一般化性能が制限される。

実験結果

リサーチクエスチョン

RQ1フィルターサイズとチャネル数を増やすことで、深さではなく幅を拡大することで、画素分布事前知識をよりよく捉えることにより、画像のノイズ除去性能が向上するか？
RQ2広い畳み込みを用いてノイズの統計的分布（例：AWGN）を学習することで、深層アーキテクチャに比べて一般化性能と性能が向上するか？
RQ3データ拡張なしで少ない画像で学習した場合、浅く広いネットワークが、深層ネットワークをどれほど上回るか？
RQ4ノイズのシミュレーション方法（例：固定 vs. 各画像ごとのランダムノイズ）が、ノイズ除去モデルの一般化能力に与える影響はどの程度か？
RQ5アーキテクチャ設計によって、ノイズ分布の事前知識を効果的にCNNに埋め込むことができるか？これにより、深さやデータ拡張に依存する必要が軽減されるか？

主な発見

WIN5は、BSD100およびBSD200データセットにおけるAWGNノイズ除去で、DnCNN や RED-Net を上回る最先端のPSNR性能を達成したが、層数は少ない。
2L(128×7×7)+2L(64×7×7)+1L(1×7×7) 構成の変種は、WIN5とほぼ同等の性能を示したが、モデルの複雑さが低減された。
データ拡張なしで200枚の画像での学習のみで、WIN5は400枚の画像に拡張を要するDnCNNを上回った。これは、データ効率の優位性を示している。
実験では、広い受容フィールドを持つネットワーク（広い畳み込み）が、特に低レベルビジョンタスクにおいて、深層ネットワークよりも画素分布事前知識の学習に効果的であることが示された。
劣化が制御された条件下では、深さを増すことで性能が向上するが、事前知識学習とノイズ除去の正確さにおいて、幅が主な要因であることがわかった。
ノイズが一貫してシードされない場合（例：固定シードなしの randn を使用）、モデルの性能が著しく低下することが判明し、異なるノイズ実現間での一般化に深刻な欠陥があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。