[論文レビュー] Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method
4K/8K低照度画像強化のUHD-LOLベンチマークを導入し、軸ベースアテンションと層間融合を備えたトランスフォーマーに基づくLLFormerを提案。UHD-LLIEおよび公開データセットで最先端の結果を達成。
As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.
研究の動機と目的
- 4K/8Kセンサーとストリーミングの台頭に伴い、UHD対応のLLIEの必要性を動機づける。
- 4Kと8Kのサブセットを含む初の大規模UHD低照度画像強化ベンチマーク(UHD-LOL)を作成する。
- UHD-LLIEにおける既存のLLIE手法をUHD-LOLで評価し、UHD設定の制約を特定する。
- 計算を削減したトランスフォーマーベースのモデルLLFormerを提案し、UHD-LLIEに適用可能性を示す。
- UHD-LLIEの改良が顔検出などの下流タスクに利益をもたらすことを示す。
提案手法
- 空間次元に沿って線形計算量を実現する軸ベースのマルチヘッド自己注意機構(A-MSA)を導入する。
- 特徴表現を強化するDual Gated Feed-Forward Network(DGFN)を提案する。
- 層間の特徴を適応的に融合するCross-layer Attention Fusion Block(CAFB)を適用する。
- スキップ接続とピクセルシェッフル/ピクセルアンシェッフル操作を用いた階層的エンコーダ-デコーダ構造を用いる。
- 滑らかなL1損失で学習し、UHD-LOL、LOL、MIT-Adobe FiveKデータセットで評価する。
実験結果
リサーチクエスチョン
- RQ1超高解像度(4K/8K)画像で効率性を維持しつつLLIEをどのように効果的に実行できるか。
- RQ2UHD-LLIEに特化したトランスフォーマーアーキテクチャは、UHD-LOLおよび公開データセットで最先端手法と比較してどうか。
- RQ3LLFormerによるUHD-LLIEの改善は、低照度下での顔検出などの下流タスクの向上につながるか。
主な発見
- LLFormerはUHD-LOL4KおよびUHD-LOL8Kベンチマークで最先端の性能を達成し、PSNRでUHD-LOL4KにおいてRestormerを0.42 dB上回る。
- トランスフォーマーベースの手法(Uformer、Restormer、LLFormer)は、UHDデータセットで従来の手法やCNNベースのLLIE手法を上回り、LLFormerが性能と効率の最良のトレードオフを提供。
- 公開データセットLOLおよびMIT-Adobe FiveKでは、LLFormerがPSNR、SSIM、LPIPS、MAEの各指標で上位に位置し、いくつかの指標でUformerおよびRestormerを上回る。
- アブレーション研究の結果、Axis-based MSAとDGFNがPSNR/SSIMの改善に大きく寄与し、CAFBと加重スキップ接続が結果を向上させる。
- LLFormerをはじめとするトップLLIE手法での前処理は、後処理の顔検出APを大幅に改善(例:LLFormer約71.2%のAP改善)。
- LLFormerは効率性にも有利で、MAC数/パラメータが競合的で、推論速度も速い(例:22.52G MACs、24.52M パラメータ、0.063s)を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。