QUICK REVIEW

[論文レビュー] Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method

Tao Wang, Kaihao Zhang|arXiv (Cornell University)|Dec 22, 2022

Image Enhancement Techniques被引用数 20

ひとこと要約

4K/8K低照度画像強化のUHD-LOLベンチマークを導入し、軸ベースアテンションと層間融合を備えたトランスフォーマーに基づくLLFormerを提案。UHD-LLIEおよび公開データセットで最先端の結果を達成。

ABSTRACT

As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.

研究の動機と目的

4K/8Kセンサーとストリーミングの台頭に伴い、UHD対応のLLIEの必要性を動機づける。
4Kと8Kのサブセットを含む初の大規模UHD低照度画像強化ベンチマーク（UHD-LOL）を作成する。
UHD-LLIEにおける既存のLLIE手法をUHD-LOLで評価し、UHD設定の制約を特定する。
計算を削減したトランスフォーマーベースのモデルLLFormerを提案し、UHD-LLIEに適用可能性を示す。
UHD-LLIEの改良が顔検出などの下流タスクに利益をもたらすことを示す。

提案手法

空間次元に沿って線形計算量を実現する軸ベースのマルチヘッド自己注意機構（A-MSA）を導入する。
特徴表現を強化するDual Gated Feed-Forward Network（DGFN）を提案する。
層間の特徴を適応的に融合するCross-layer Attention Fusion Block（CAFB）を適用する。
スキップ接続とピクセルシェッフル/ピクセルアンシェッフル操作を用いた階層的エンコーダ-デコーダ構造を用いる。
滑らかなL1損失で学習し、UHD-LOL、LOL、MIT-Adobe FiveKデータセットで評価する。

実験結果

リサーチクエスチョン

RQ1超高解像度（4K/8K）画像で効率性を維持しつつLLIEをどのように効果的に実行できるか。
RQ2UHD-LLIEに特化したトランスフォーマーアーキテクチャは、UHD-LOLおよび公開データセットで最先端手法と比較してどうか。
RQ3LLFormerによるUHD-LLIEの改善は、低照度下での顔検出などの下流タスクの向上につながるか。

主な発見

LLFormerはUHD-LOL4KおよびUHD-LOL8Kベンチマークで最先端の性能を達成し、PSNRでUHD-LOL4KにおいてRestormerを0.42 dB上回る。
トランスフォーマーベースの手法（Uformer、Restormer、LLFormer）は、UHDデータセットで従来の手法やCNNベースのLLIE手法を上回り、LLFormerが性能と効率の最良のトレードオフを提供。
公開データセットLOLおよびMIT-Adobe FiveKでは、LLFormerがPSNR、SSIM、LPIPS、MAEの各指標で上位に位置し、いくつかの指標でUformerおよびRestormerを上回る。
アブレーション研究の結果、Axis-based MSAとDGFNがPSNR/SSIMの改善に大きく寄与し、CAFBと加重スキップ接続が結果を向上させる。
LLFormerをはじめとするトップLLIE手法での前処理は、後処理の顔検出APを大幅に改善（例：LLFormer約71.2%のAP改善）。
LLFormerは効率性にも有利で、MAC数/パラメータが競合的で、推論速度も速い（例：22.52G MACs、24.52M パラメータ、0.063s）を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。