[論文レビュー] Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method
4K/8K低照度画像強化のUHD-LOLベンチマークを導入し、軸ベースアテンションと層間融合を備えたトランスフォーマーに基づくLLFormerを提案。UHD-LLIEおよび公開データセットで最先端の結果を達成。
As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.
研究の動機と目的
- 4K/8Kセンサーとストリーミングの台頭に伴い、UHD対応のLLIEの必要性を動機づける。
- 4Kと8Kのサブセットを含む初の大規模UHD低照度画像強化ベンチマーク(UHD-LOL)を作成する。
- UHD-LLIEにおける既存のLLIE手法をUHD-LOLで評価し、UHD設定の制約を特定する。
- 計算を削減したトランスフォーマーベースのモデルLLFormerを提案し、UHD-LLIEに適用可能性を示す。
- UHD-LLIEの改良が顔検出などの下流タスクに利益をもたらすことを示す。
提案手法
- 空間次元に沿って線形計算量を実現する軸ベースのマルチヘッド自己注意機構(A-MSA)を導入する。
- 特徴表現を強化するDual Gated Feed-Forward Network(DGFN)を提案する。
- 層間の特徴を適応的に融合するCross-layer Attention Fusion Block(CAFB)を適用する。
- スキップ接続とピクセルシェッフル/ピクセルアンシェッフル操作を用いた階層的エンコーダ-デコーダ構造を用いる。
- 滑らかなL1損失で学習し、UHD-LOL、LOL、MIT-Adobe FiveKデータセットで評価する。
実験結果
リサーチクエスチョン
- RQ1超高解像度(4K/8K)画像で効率性を維持しつつLLIEをどのように効果的に実行できるか。
- RQ2UHD-LLIEに特化したトランスフォーマーアーキテクチャは、UHD-LOLおよび公開データセットで最先端手法と比較してどうか。
- RQ3LLFormerによるUHD-LLIEの改善は、低照度下での顔検出などの下流タスクの向上につながるか。
主な発見
| 方法 | UHD-LOL4K PSNR | UHD-LOL4K SSIM | UHD-LOL4K LPIPS | UHD-LOL4K MAE | UHD-LOL8K PSNR | UHD-LOL8K SSIM | UHD-LOL8K LPIPS | UHD-LOL8K MAE |
|---|---|---|---|---|---|---|---|---|
| 入力 | 11.9439 | 0.5295 | 0.3125 | 0.2591 | 13.7486 | 0.6415 | 0.3104 | 0.2213 |
| BIMEF | 18.1001 | 0.8876 | 0.1323 | 0.1240 | 19.5225 | 0.9099 | 0.1825 | 0.1048 |
| FEA | 18.3608 | 0.8161 | 0.2197 | 0.0986 | 15.3301 | 0.7699 | 0.3696 | 0.1700 |
| LIME | 16.1709 | 0.8141 | 0.2064 | 0.1285 | 13.5699 | 0.7684 | 0.3055 | 0.2097 |
| MF | 18.8988 | 0.8631 | 0.1358 | 0.1111 | 18.2474 | 0.8781 | 0.2158 | 0.1258 |
| NPE | 17.6399 | 0.8665 | 0.1753 | 0.1125 | 16.2283 | 0.7933 | 0.3214 | 0.1506 |
| SRIE | 16.7730 | 0.8365 | 0.1495 | 0.1416 | 19.9637 | 0.9140 | 0.1813 | 0.0975 |
| MSRCR | 12.5238 | 0.8106 | 0.2136 | 0.2039 | 12.5238 | 0.7201 | 0.4364 | 0.2352 |
| RetinexNet | 21.6702 | 0.9086 | 0.1478 | 0.0690 | 21.2538 | 0.9161 | 0.1792 | 0.0843 |
| DSLR | 27.3361 | 0.9231 | 0.1217 | 0.0341 | 21.9406 | 0.8749 | 0.2661 | 0.0805 |
| KinD | 18.4638 | 0.8863 | 0.1297 | 0.1060 | 17.0200 | 0.7882 | 0.1739 | 0.1538 |
| Z-DCE | 17.1873 | 0.8498 | 0.1925 | 0.1465 | 14.1593 | 0.8141 | 0.2847 | 0.1914 |
| Z-DCE++ | 15.5793 | 0.8346 | 0.2223 | 0.1701 | 14.6837 | 0.8348 | 0.2466 | 0.1904 |
| RUAS | 14.6806 | 0.7575 | 0.2736 | 0.1690 | 12.2290 | 0.7903 | 0.3557 | 0.2445 |
| ELGAN | 18.3693 | 0.8642 | 0.1967 | 0.1011 | 15.2009 | 0.8376 | 0.2293 | 0.1713 |
| Uformer | 29.9870 | 0.9804 | 0.0342 | 0.0262 | 28.9244 | 0.9747 | 0.0602 | 0.0344 |
| Restormer | 36.9094 | 0.9881 | 0.0226 | 0.0117 | 35.0568 | 0.9858 | 0.0331 | 0.0195 |
| LLFormer | 37.3340 | 0.9889 | 0.0200 | 0.0116 | 35.4313 | 0.9861 | 0.0267 | 0.0194 |
- LLFormerはUHD-LOL4KおよびUHD-LOL8Kベンチマークで最先端の性能を達成し、PSNRでUHD-LOL4KにおいてRestormerを0.42 dB上回る。
- トランスフォーマーベースの手法(Uformer、Restormer、LLFormer)は、UHDデータセットで従来の手法やCNNベースのLLIE手法を上回り、LLFormerが性能と効率の最良のトレードオフを提供。
- 公開データセットLOLおよびMIT-Adobe FiveKでは、LLFormerがPSNR、SSIM、LPIPS、MAEの各指標で上位に位置し、いくつかの指標でUformerおよびRestormerを上回る。
- アブレーション研究の結果、Axis-based MSAとDGFNがPSNR/SSIMの改善に大きく寄与し、CAFBと加重スキップ接続が結果を向上させる。
- LLFormerをはじめとするトップLLIE手法での前処理は、後処理の顔検出APを大幅に改善(例:LLFormer約71.2%のAP改善)。
- LLFormerは効率性にも有利で、MAC数/パラメータが競合的で、推論速度も速い(例:22.52G MACs、24.52M パラメータ、0.063s)を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。