QUICK REVIEW

[論文レビュー] Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion

Minglong Xue, Jinhong He|arXiv (Cornell University)|Jan 8, 2024

Image Enhancement Techniques被引用数 10

ひとこと要約

CFWDはCLIP-guided多尺度言語プロンプトとハイブリッド Wavelet-Fourier 周波数ドメイン空間を導入し、拡散ベースの低照度画像強化プロセスをガイドします。公開ベンチマークで最先端の結果を達成。

ABSTRACT

Low-light image enhancement techniques have significantly progressed, but unstable image quality recovery and unsatisfactory visual perception are still significant challenges. To solve these problems, we propose a novel and robust low-light image enhancement method via CLIP-Fourier Guided Wavelet Diffusion, abbreviated as CFWD. Specifically, CFWD leverages multimodal visual-language information in the frequency domain space created by multiple wavelet transforms to guide the enhancement process. Multi-scale supervision across different modalities facilitates the alignment of image features with semantic features during the wavelet diffusion process, effectively bridging the gap between degraded and normal domains. Moreover, to further promote the effective recovery of the image details, we combine the Fourier transform based on the wavelet transform and construct a Hybrid High Frequency Perception Module (HFPM) with a significant perception of the detailed features. This module avoids the diversity confusion of the wavelet diffusion process by guiding the fine-grained structure recovery of the enhancement results to achieve favourable metric and perceptually oriented enhancement. Extensive quantitative and qualitative experiments on publicly available real-world benchmarks show that our approach outperforms existing state-of-the-art methods, achieving significant progress in image quality and noise suppression. The project code is available at https://github.com/hejh8/CFWD.

研究の動機と目的

構造と色をアーティファクトなく preservesする堅牢な低照度画像強化を動機づける。
Waveletベースのグローバル情報と高周波回復を用いた拡散モデルを活用する。
CLIPベースの視覚-言語ガイダンスを組み込み、拡散を制約して知覚品質を向上させる。
高周波の詳細とテクスチャ復元を強化するハイブリッド周波数ドメインモジュールを開発する。

提案手法

低照度画像をグローバル情報と高周波成分に分解するためのKレベル離散ウェーブレット変換を用い、拡散処理を行う。
ウェーブレットドメインのグローバル情報に対して拡散推論を実施し、トレーニングフェーズのグローバル情報とのL2整合性で監督する。
WaveletとFourier表現を組み合わせたHybrid Frequency Domain Perception Module (HFDPM)を導入し、L1およびFourierベースの損失で高周波の詳細を回復する。
CLIPを用いて複数のプロンプトスケール（T_p, T_n）を経る段階的な強化をガイドするマルチスケール視覚-言語ガイダンスネットワーク와 CLIPベースの損失（L_ALE, L_CLIPE, L_MSE）を用いる。
全体目的L_All = L_diff + L_CLIP + L_HFDPM + L_elementを最適化し、参照画像と整合させるコンテンツ損失（L_element）を含むSSIMを用いる。

実験結果

リサーチクエスチョン

RQ1CLIPパワードのマルチスケール言語ガイダンスは拡散ベースの低照度強化の安定性と知覚忠実度を向上させるか。
RQ2ハイブリッドウェーブレット-フーリエ周波数空間は、全体構造を維持しつつ細部をより良く保持できるか、従来の拡散ベース手法と比較してどうか。
RQ3マルチスケール視覚-言語ガイダンスは実世界の低照度データセットにおける強化画像品質にどのような影響を与えるか。
RQ4ハイブリッド周波数ドメイン知覚モジュールが高周波回復と知覚品質へどのような貢献をするか。

主な発見

CFWDはPSNR、SSIM、LPIPS、FIDの各指標でLOLv1、LOLv2-Real_captured、LSRWデータセットにおいて定量的に最先端の性能を達成。
従来のSOTA WCDMと比較して、CFWDはLOLv1でPSNRを約2.88 dB、SSIMを約0.027改善し、LOLv2-Real_capturedとLSRWでも顕著な向上を示す。
CFWDは高解像度BAIDデータで強い一般化性能を示し、非対合データセットLIMEおよびDICMをNIQEとBRISQUEで評価したときに多くの手法を上回る（低い方が良い）。
アブレーション研究により、プロンプトスケールMを増やすと性能が向上し、LOLv1でPSNR/SSIM/LPIPS/FIDの最良結果はM=3で得られる。
ハイブリッド周波数ドメイン知覚モジュール（HFDPM）バージョンv3は、他の検証済み変種の中で最も強い高周波特徴回復と知覚品質を提供。
定性的な結果は、CFWDが色の歪み、アーティファクト、過/不足露出を抑え、通常照明に近い画像を提供し、内容構造を維持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。