Skip to main content
QUICK REVIEW

[論文レビュー] Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method

Tao Wang, Kaihao Zhang|arXiv (Cornell University)|Dec 22, 2022
Image Enhancement Techniques被引用数 20
ひとこと要約

4K/8K低照度画像強化のUHD-LOLベンチマークを導入し、軸ベースアテンションと層間融合を備えたトランスフォーマーに基づくLLFormerを提案。UHD-LLIEおよび公開データセットで最先端の結果を達成。

ABSTRACT

As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.

研究の動機と目的

  • 4K/8Kセンサーとストリーミングの台頭に伴い、UHD対応のLLIEの必要性を動機づける。
  • 4Kと8Kのサブセットを含む初の大規模UHD低照度画像強化ベンチマーク(UHD-LOL)を作成する。
  • UHD-LLIEにおける既存のLLIE手法をUHD-LOLで評価し、UHD設定の制約を特定する。
  • 計算を削減したトランスフォーマーベースのモデルLLFormerを提案し、UHD-LLIEに適用可能性を示す。
  • UHD-LLIEの改良が顔検出などの下流タスクに利益をもたらすことを示す。

提案手法

  • 空間次元に沿って線形計算量を実現する軸ベースのマルチヘッド自己注意機構(A-MSA)を導入する。
  • 特徴表現を強化するDual Gated Feed-Forward Network(DGFN)を提案する。
  • 層間の特徴を適応的に融合するCross-layer Attention Fusion Block(CAFB)を適用する。
  • スキップ接続とピクセルシェッフル/ピクセルアンシェッフル操作を用いた階層的エンコーダ-デコーダ構造を用いる。
  • 滑らかなL1損失で学習し、UHD-LOL、LOL、MIT-Adobe FiveKデータセットで評価する。

実験結果

リサーチクエスチョン

  • RQ1超高解像度(4K/8K)画像で効率性を維持しつつLLIEをどのように効果的に実行できるか。
  • RQ2UHD-LLIEに特化したトランスフォーマーアーキテクチャは、UHD-LOLおよび公開データセットで最先端手法と比較してどうか。
  • RQ3LLFormerによるUHD-LLIEの改善は、低照度下での顔検出などの下流タスクの向上につながるか。

主な発見

方法UHD-LOL4K PSNRUHD-LOL4K SSIMUHD-LOL4K LPIPSUHD-LOL4K MAEUHD-LOL8K PSNRUHD-LOL8K SSIMUHD-LOL8K LPIPSUHD-LOL8K MAE
入力11.94390.52950.31250.259113.74860.64150.31040.2213
BIMEF18.10010.88760.13230.124019.52250.90990.18250.1048
FEA18.36080.81610.21970.098615.33010.76990.36960.1700
LIME16.17090.81410.20640.128513.56990.76840.30550.2097
MF18.89880.86310.13580.111118.24740.87810.21580.1258
NPE17.63990.86650.17530.112516.22830.79330.32140.1506
SRIE16.77300.83650.14950.141619.96370.91400.18130.0975
MSRCR12.52380.81060.21360.203912.52380.72010.43640.2352
RetinexNet21.67020.90860.14780.069021.25380.91610.17920.0843
DSLR27.33610.92310.12170.034121.94060.87490.26610.0805
KinD18.46380.88630.12970.106017.02000.78820.17390.1538
Z-DCE17.18730.84980.19250.146514.15930.81410.28470.1914
Z-DCE++15.57930.83460.22230.170114.68370.83480.24660.1904
RUAS14.68060.75750.27360.169012.22900.79030.35570.2445
ELGAN18.36930.86420.19670.101115.20090.83760.22930.1713
Uformer29.98700.98040.03420.026228.92440.97470.06020.0344
Restormer36.90940.98810.02260.011735.05680.98580.03310.0195
LLFormer37.33400.98890.02000.011635.43130.98610.02670.0194
  • LLFormerはUHD-LOL4KおよびUHD-LOL8Kベンチマークで最先端の性能を達成し、PSNRでUHD-LOL4KにおいてRestormerを0.42 dB上回る。
  • トランスフォーマーベースの手法(Uformer、Restormer、LLFormer)は、UHDデータセットで従来の手法やCNNベースのLLIE手法を上回り、LLFormerが性能と効率の最良のトレードオフを提供。
  • 公開データセットLOLおよびMIT-Adobe FiveKでは、LLFormerがPSNR、SSIM、LPIPS、MAEの各指標で上位に位置し、いくつかの指標でUformerおよびRestormerを上回る。
  • アブレーション研究の結果、Axis-based MSAとDGFNがPSNR/SSIMの改善に大きく寄与し、CAFBと加重スキップ接続が結果を向上させる。
  • LLFormerをはじめとするトップLLIE手法での前処理は、後処理の顔検出APを大幅に改善(例:LLFormer約71.2%のAP改善)。
  • LLFormerは効率性にも有利で、MAC数/パラメータが競合的で、推論速度も速い(例:22.52G MACs、24.52M パラメータ、0.063s)を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。