Skip to main content
QUICK REVIEW

[論文レビュー] Multi-level Wavelet-CNN for Image Restoration

Pengju Liu, Hongzhi Zhang|arXiv (Cornell University)|May 18, 2018
Image and Signal Denoising Methods参考文献 51被引用数 36
ひとこと要約

本稿では、収縮路に離散ウェーブレット変換(DWT)を、拡張路に逆ウェーブレット変換(IWT)を組み込んだ、U-Netに基づく新規なMWCNNアーキテクチャを提案する。これにより、計算コストを増加させることなく受容 field を拡大できる。ウェーブレットの時間周波数局在特性を活用することで、MWCNNは画像のノイズ除去、スーパーレゾリューション、JPEGアーチファクト除去の分野で最先端の性能を達成し、ドーライドCNNや他のベースラインと比較してPSNRと効率のトレードオフにおいて優れている。

ABSTRACT

The tradeoff between receptive field size and efficiency is a crucial issue in low level vision. Plain convolutional networks (CNNs) generally enlarge the receptive field at the expense of computational cost. Recently, dilated filtering has been adopted to address this issue. But it suffers from gridding effect, and the resulting receptive field is only a sparse sampling of input image with checkerboard patterns. In this paper, we present a novel multi-level wavelet CNN (MWCNN) model for better tradeoff between receptive field size and computational efficiency. With the modified U-Net architecture, wavelet transform is introduced to reduce the size of feature maps in the contracting subnetwork. Furthermore, another convolutional layer is further used to decrease the channels of feature maps. In the expanding subnetwork, inverse wavelet transform is then deployed to reconstruct the high resolution feature maps. Our MWCNN can also be explained as the generalization of dilated filtering and subsampling, and can be applied to many image restoration tasks. The experimental results clearly show the effectiveness of MWCNN for image denoising, single image super-resolution, and JPEG image artifacts removal.

研究の動機と目的

  • 低レベルビジョンタスクにおける受容 field の大きさと計算効率のトレードオフを解消すること。
  • 拡張畳み込みにおけるグリッド効果を克服するため、疎なサンプリングに代えて多レベルウェーブレット分解を導入すること。
  • 特徴のダウンサンプリングおよび再構築の過程で、微細なテクスチャーや構造的詳細を保持すること。
  • 多様な画像修復タスクに適用可能な汎用的なアーキテクチャを提供すること。
  • ウェーブレットに基づくダウンサンプリングが、マックスプーリングや学習可能なフィルターを上回ることを示すこと。

提案手法

  • MWCNNアーキテクチャは、収縮路に離散ウェーブレット変換(DWT)を用いた多段階ダウンサンプリングを行う修正版U-Netに基づく。
  • 収縮路では、DWTが特徴マップをサブバンドに分解し、周波数および空間情報の両方を保持する。
  • 各DWTの後に畳み込み層を配置してチャネル数を削減し、計算負荷を低減する。
  • 拡張路では、逆ウェーブレット変換(IWT)を用いてサブバンドから高分解能な特徴マップを再構築する。
  • 要素ごとの和算によるスキップ接続により、収縮路と拡張路の特徴を統合し、特徴の融合を強化する。
  • 本手法は、ドーライドフィルタリングおよびサブサンプリングを一般化し、ウェーブレット変換を構造的かつ可逆的なダウンサンプリング機構として機能させる。

実験結果

リサーチクエスチョン

  • RQ1U-Netアーキテクチャにウェーブレットベースのダウンサンプリングを適用することで、標準的なプーリングや拡張畳み込みよりも大きな有効受容 field を達成できるか?
  • RQ2DWTおよびIWTの使用により、マックスプーリングや学習可能なフィルターと比較して、より多くの構造的・テクスチャ的詳細を保持できるか?
  • RQ3MWCNNフレームワークは、計算効率を維持したまま、既存のCNNを上回る画像修復性能を示せるか?
  • RQ4ウェーブレットフィルターの選択(例:ハール、DB2、エルミート)が、修復性能および速度に与える影響は何か?
  • RQ5単一レベルの分解に比べて、多段階ウェーブレット分解が画像修復においてより効果的か?

主な発見

  • Set5 ×4 スーパーレゾリューションベンチマークにおいて、MWCNNはVDSR、DnCNN、LapSRNといった最先端モデルを上回るPSNRを達成し、推論時間の増加は限定的である。
  • ノイズレベル50のガウスノイズノイズ除去タスクにおいて、MWCNN-3(3段階分解)はSet12で27.74 dBのPSNRを達成し、MWCNN-1およびMWCNN-2を上回りつつも、妥当な速度を維持している。
  • テストされたウェーブレットの中でハールウェーブレットが最も優れた性能を示し、MWCNN(ハール)はドーライドCNNと同等のPSNRを達成するが、受容 field のカバー範囲が優れている。
  • アブレーションスタディの結果、PSNRに損なわれることなく効率が向上するため、和算接続が連結結合を上回ることが確認された。
  • 24層のMWCNN-3が、性能と速度のバランスが最良であり、MWCNN-4よりも深くしても顕著な向上は得られなかった。
  • ウェーブレットサブバンドを独立して処理する(DCFと同様)と性能が劣化するため、MWCNNによる統合的モデリングがサブバンド固有のネットワークよりも効果的であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。