[論文レビュー] GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing
GridDehazeNetは、訓練可能な前処理モジュール、注意機構を用いた多段階のグリッドバックボーン、および後処理段階を備え、大気散乱モデルに依存せず、最先端手法を上回る単一画像デヒージングのエンドツーエンドCNNです。
We propose an end-to-end trainable Convolutional Neural Network (CNN), named GridDehazeNet, for single image dehazing. The GridDehazeNet consists of three modules: pre-processing, backbone, and post-processing. The trainable pre-processing module can generate learned inputs with better diversity and more pertinent features as compared to those derived inputs produced by hand-selected pre-processing methods. The backbone module implements a novel attention-based multi-scale estimation on a grid network, which can effectively alleviate the bottleneck issue often encountered in the conventional multi-scale approach. The post-processing module helps to reduce the artifacts in the final output. Experimental results indicate that the GridDehazeNet outperforms the state-of-the-arts on both synthetic and real-world images. The proposed hazing method does not rely on the atmosphere scattering model, and we provide an explanation as to why it is not necessarily beneficial to take advantage of the dimension reduction offered by the atmosphere scattering model for image dehazing, even if only the dehazing results on synthetic images are concerned.
研究の動機と目的
- 大気散乱モデルに厳密に依存せずデヒージングを動機づける。
- 多様な学習入力を生成する訓練可能な前処理モジュールを導入する。
- 効率的な多尺度情報交換を実現する注意機構付きグリッドバックボーンを開発する。
- 出力のアーティファクトを低減する後処理段階を取り入れる。
- 合成および実世界のヘイズ画像において最先端性能を示す。
提案手法
- hazy画像を16個の学習入力へ変換する訓練可能な前処処理モジュール。
- 三行六列のグリッドベースのバックボーンで、密なクロススケール情報交換を可能にする。
- 行/列ストリームからの多尺度特徴を統合するチャネルごとの注意機構。
- 最終デヒージング画像のアーティファクトを抑制する後処理モジュール。
- 損失は、Conv1-2、Conv2-2、Conv3-3層のVGG16特徴を用いた知覚損失と滑らかさを促すL1損失を組み合わせ、λ=0.04 とする。
実験結果
リサーチクエスチョン
- RQ1完全に訓練可能なデヒージングネットワークは、合成および実世界のヘイズ画像においてモデルベースおよび他のデータ駆動法を上回ることができるか。
- RQ2グリッドベースの注意誘導型多尺度バックボーンは、エンコーダ-デコーダや標準的な多尺度ネットワークよりも尺度ボトルネックをより適切に扱えるか。
- RQ3合成データであってもデヒージングのために大気散乱モデルを迂回する利点があるか。
- RQ4学習された前処理入力は、手作りまたは導出された入力より多様性の利点をもたらすか。
主な発見
| 方法 | 室内PSNR | 室内SSIM | 屋外PSNR | 屋外SSIM | Sun RGB-D PSNR | Sun RGB-D SSIM |
|---|---|---|---|---|---|---|
| DCP | 16.61 | 0.8546 | 19.14 | 0.8605 | 15.18 | 0.8191 |
| DehazeNet | 19.82 | 0.8209 | 24.75 | 0.9269 | 23.05 | 0.8870 |
| MSCNN | 19.84 | 0.8327 | 22.06 | 0.9078 | 23.85 | 0.9095 |
| AOD-Net | 20.51 | 0.8162 | 24.14 | 0.9198 | 22.51 | 0.8918 |
| GFN | 24.91 | 0.9186 | 28.29 | 0.9621 | 25.35 | 0.9250 |
| Ours | 32.16 | 0.9836 | 30.86 | 0.9819 | 28.67 | 0.9599 |
- Outperforms state-of-the-art methods on SOTS indoor/outdoor and Sun RGB-D datasets in PSNR/SSIM.
- Learned inputs offer diversity gains over derived inputs, boosting performance.
- GridDehazeNet with attention-based fusion yields the best qualitative and quantitative results, including reduced artifacts.
- Bypassing the atmosphere scattering model can yield better optimization surfaces and dehazing performance than indirect model-based estimation.
- Ablation studies show the full model components (grid backbone, attention fusion, post-processing, perceptual loss) each contribute to performance gains.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。