[論文レビュー] Retinexmamba: Retinex-based Mamba for Low-light Image Enhancement
RetinexMambaは、Retinexに着想を得た Illumination Estimator と Illumination Fusion State Space Model を SS2D/Mamba がバックボーンとして採用し、低照度画像を改善します。IG-MSA を Fused-Attention に置き換えて解釈性と効率を向上させ、LOL データセットで最先端の結果を達成します。
In the field of low-light image enhancement, both traditional Retinex methods and advanced deep learning techniques such as Retinexformer have shown distinct advantages and limitations. Traditional Retinex methods, designed to mimic the human eye's perception of brightness and color, decompose images into illumination and reflection components but struggle with noise management and detail preservation under low light conditions. Retinexformer enhances illumination estimation through traditional self-attention mechanisms, but faces challenges with insufficient interpretability and suboptimal enhancement effects. To overcome these limitations, this paper introduces the RetinexMamba architecture. RetinexMamba not only captures the physical intuitiveness of traditional Retinex methods but also integrates the deep learning framework of Retinexformer, leveraging the computational efficiency of State Space Models (SSMs) to enhance processing speed. This architecture features innovative illumination estimators and damage restorer mechanisms that maintain image quality during enhancement. Moreover, RetinexMamba replaces the IG-MSA (Illumination-Guided Multi-Head Attention) in Retinexformer with a Fused-Attention mechanism, improving the model's interpretability. Experimental evaluations on the LOL dataset show that RetinexMamba outperforms existing deep learning approaches based on Retinex theory in both quantitative and qualitative metrics, confirming its effectiveness and superiority in enhancing low-light images.
研究の動機と目的
- 従来の Retinex および Retinexformer アプローチの低照度強化における限界を動機づけ、これらを克服する。
- Illumination Estimator と Illumination Fusion State Space Models に基づく Damage Restorer を組み合わせた RetinexMamba アーキテクチャを提案する。
- Fused-Attention と SS2D バックボーンを用いて解釈性と処理速度を向上させる。
- LOL データセット上で定量的および定性的な性能の優位性を示す。
- アーキテクチャの選択と構成要素を正当化するアブレーションを分析する。
提案手法
- Illumination Estimator (IE) を導入し、画像と illumination prior を統合して照明付き画像と illumination feature map を生成する。
- Illumination Fusion State Space Model (IFSSM) を Damage Restorer の核として開発し、Illumination Fusion Attention (IFA)、2D Selective Scan (SS2D)、LN、FFN、および畳み込み層で構成する。
- IG-MSA を Cross-Attention ベースの Fused-Attention に置換し、解釈性を高め、低光領域へのアテンションを集中的にする。
- 長距離依存性をモデル化しつつ計算量を線形に抑えるために 2D Selective Scan (SS2D) を利用する。
- Retinex ベースの摂動フレームワークを採用し、I = (R + ~R) ∘ (L + ~L) をモデル化し、I_lu = I ∘ L̄ を導出する。
- LOL v1/v2 データセットで訓練・評価を行い、MAE 損失と cosine annealing を用い、PSNR/SSIM/RMSE 指標を比較する。
- 設計上の選択を正当化するアブレーション研究(FixedHS、NoFB、NoSS2D、IG-MSA)を提供する。
実験結果
リサーチクエスチョン
- RQ1Retinex に着想を得たアーキテクチャを、状態空間モデリングと組み合わせて低光量画像を効率的に改善するにはどうすればよいか。
- RQ2IG-MSA を Fused-Attention に置換し、SS2D を用いることで LOL データセットで解釈性と性能を改善できるか。
- RQ3 illumination prior fusion と SS2D の深さが復元品質とアーティファクト抑制に与える影響は何か。
主な発見
| 手法 | LOL-v1 PSNR | LOL-v1 SSIM | LOL-v1 RMSE | LOL-v2-real PSNR | LOL-v2-real SSIM | LOL-v2-real RMSE |
|---|---|---|---|---|---|---|
| LIME [14] | 16.362 | 0.624 | 21.07 | 16.342 | 0.653 | 22.54 |
| MBLLEN [27] | 17.938 | 0.699 | 18.78 | 15.950 | 0.701 | 30.22 |
| Retntinex-Net [45] | 17.188 | 0.589 | 22.59 | 16.410 | 0.640 | 20.21 |
| KinD [56] | 20.347 | 0.813 | 14.30 | 18.070 | 0.781 | 18.04 |
| KinD++ [55] | 20.707 | 0.791 | 14.34 | 16.800 | 0.741 | 15.64 |
| MIRNet [51] | 24.140 | 0.842 | 12.03 | 20.357 | 0.782 | 14.21 |
| URetntinex-Net [46] | 21.450 | 0.795 | 13.55 | 21.554 | 0.801 | 14.23 |
| Retinexformer [2] | 23.932 | 0.831 | 8.35 | 21.230 | 0.838 | 9.92 |
| RetinexMamba | 24.025 | 0.827 | 8.17 | 22.453 | 0.844 | 9.38 |
- RetinexMamba は LOL-v1 および LOLv2-real でいくつかの SOTA 手法より高い PSNR を達成(例: LOL-v1 で 24.025 PSNR、LOLv2-real で 22.453)。
- LOL-v1 では RetinexMamba が 0.827 SSIM と 8.17 RMSE を、LOL-v2-real では 0.844 SSIM と 9.38 RMSE を達成。
- LOL-v2-real で RetinexMamba は PSNR で Retinexformer を上回り(22.453 vs 21.230)、ただし一部のケースで RMSE がやや高くなるなど、指標間のトレードオフを示す。
- アブレーション研究により、SS2D と融合型アテンションを持つ全面的な RetinexMamba が LOL-v1、LOLv2-real、LOLv2-syn で最良の PSNR/SSIM を示す。
- 定性的な結果として、RetinexMamba は露出制御をより適切に行い、色の歪みを抑制し、ノイズを低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。