QUICK REVIEW

[논문 리뷰] Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and Transformer-Based Method

Tao Wang, Kaihao Zhang|arXiv (Cornell University)|2022. 12. 22.

Image Enhancement Techniques인용 수 20

한 줄 요약

4K/8K 저조도 영상 향상을 위한 UHD-LOL 벤치마크를 도입하고 축 기반 어텐션과 층 간 융합을 갖춘 트랜스포머 기반 LLFormer를 제안하여 UHD-LLIE 및 공개 LLIE 데이터셋에서 최첨단 결과를 달성한다.

ABSTRACT

As the quality of optical sensors improves, there is a need for processing large-scale images. In particular, the ability of devices to capture ultra-high definition (UHD) images and video places new demands on the image processing pipeline. In this paper, we consider the task of low-light image enhancement (LLIE) and introduce a large-scale database consisting of images at 4K and 8K resolution. We conduct systematic benchmarking studies and provide a comparison of current LLIE algorithms. As a second contribution, we introduce LLFormer, a transformer-based low-light enhancement method. The core components of LLFormer are the axis-based multi-head self-attention and cross-layer attention fusion block, which significantly reduces the linear complexity. Extensive experiments on the new dataset and existing public datasets show that LLFormer outperforms state-of-the-art methods. We also show that employing existing LLIE methods trained on our benchmark as a pre-processing step significantly improves the performance of downstream tasks, e.g., face detection in low-light conditions. The source code and pre-trained models are available at https://github.com/TaoWangzj/LLFormer.

연구 동기 및 목표

4K/8K 센서 및 스트리밍 증가로 UHD 친화적 LLIE의 필요성을 제고한다.
4K 및 8K 하위집합을 포함한 최초의 대규모 UHD 저조도 영상 향상 벤치마크(UHD-LOL)를 만든다.
UHD-LLIE에서 기존 LLIE 메서드를 평가하고 UHD 설정의 한계를 식별한다.
처리량을 줄인 UHD-LLIE용 트랜스포머 기반 LLFormer를 제안한다.
UHD-LLIE 향상이 얼굴 인식과 같은 다운스트림 작업에 이익을 주는지 입증한다.]
method:[

제안 방법

축 기반 다중-헤드 자기 주의(A-MSA) 도입으로 공간 차원에서 선형 복잡도를 달성한다.
피처 표현을 강화하기 위한 이중 게이트드 피드포워드 네트워크(DGFN)를 제안한다.
레이어 간 피처를 적응적으로 융합하는 クロ스-레이어 어텐션 융합 블록(CAFB)을 적용한다.
Skip 연결과 픽셀 셔플/픽셀 언셔플 연산을 갖춘 계층적 인코더-디코더 구조를 사용한다.
스무스 L1 손실로 학습하고 UHD-LOL, LOL, MIT-Adobe FiveK 데이터세트에서 평가한다.

실험 결과

연구 질문

RQ1ULTRA-HD(4K/8K) 이미지에서 LLIE를 어떻게 효과적으로 수행하면서 계산 효율성을 유지할 수 있는가?
RQ2 UHD-LLIE에 특화된 트랜스포머 기반 아키텍처가 UHD-LOL 및 공개 데이터셋에서 최신 LLIE 방법과 비교하여 어떤 성능을 보이는가?
RQ3LLFormer의 UHD-LLIE 향상이 얼굴 인식 등 다운스트림 태스크의 저조도 조건에서 이득으로 이어지는가?

주요 결과

LLFormer는 UHD-LOL4K 및 UHD-LOL8K 벤치마크에서 최첨단 성능을 달성하며, UHD-LOL4K에서 PSNR 기준으로 Restormer보다 0.42 dB 우수하게 나타난다.
트랜스포머 기반 방법(Uformer, Restormer, LLFormer)은 UHD 데이터셋에서 전통적 및 CNN 기반 LLIE 방법을 능가하며, LLFormer가 성능과 효율성 간 최적의 트레이드오프를 제공한다.
공개 데이터셋 LOL 및 MIT-Adobe FiveK에서 LLFormer는 PSNR, SSIM, LPIPS, MAE 전 부문에서 상위권에 위치하거나 최상위에 근접하며, 여러 지표에서 Uformer 및 Restormer를 능가한다.
축 기반 MSA 및 DGFN이 PSNR/SSIM 상승에 큰 기여를 하며 CAFB와 가중치 스킵 연결이 결과를 향상시킨다.
LLFormer를 포함한 최상위 LLIE 방법으로 전처리 시 얼굴 인식 AP가 상당한 폭으로 향상된다(예: LLFormer 약 71.2% AP 향상).
LLFormer는 폭넓은 MAC 및 매개변수 대비 경쟁력 있는 효율성을 제공하며, 빠른 추론 속도(예: 22.52G MACs, 24.52M 매개변수, 0.063초)로 더 넓고 깊은 변형들에 비해 실용적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.