QUICK REVIEW

[논문 리뷰] LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement

Alexandru Brateanu, Raul Balmez|arXiv (Cornell University)|2024. 01. 26.

Image Enhancement Techniques인용 수 5

한 줄 요약

LYT-Net은 YUV 공간에서 작동하여 밝기와 색도을 분리해 향상시키는 경량 Transformer 기반 LLIE 모델을 도입하고, 극히 낮은 복잡도에서 최첨단 수준의 결과를 달성합니다.

ABSTRACT

This letter introduces LYT-Net, a novel lightweight transformer-based model for low-light image enhancement (LLIE). LYT-Net consists of several layers and detachable blocks, including our novel blocks--Channel-Wise Denoiser (CWD) and Multi-Stage Squeeze & Excite Fusion (MSEF)--along with the traditional Transformer block, Multi-Headed Self-Attention (MHSA). In our method we adopt a dual-path approach, treating chrominance channels U and V and luminance channel Y as separate entities to help the model better handle illumination adjustment and corruption restoration. Our comprehensive evaluation on established LLIE datasets demonstrates that, despite its low complexity, our model outperforms recent LLIE methods. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net

연구 동기 및 목표

색상 충실도를 보존하면서 효율적인 저조도 이미지 향상을 촉진한다.
YUV 색상 공간을 활용해 휘도와 색도 처리를 분리하여 지각 품질을 향상시킨다.
노이즈 제거, 융합, 주의를 위한 전용 블록을 갖춘 경량 Transformer 기반 아키텍처를 개발한다.
지각 품질, 색상 충실도, 구조적 유사성을 함께 최적화하는 하이브리드 손실을 제안한다.

제안 방법

입력 RGB 이미지를 처리하고 Y, U, V 채널을 분리하기 위해 YUV로 변환한다.
특수 블록(MHSA, MSEF, CWD)을 사용한 휘도(Y) 및 색도(U, V) 처리를 갖춘 이중 경로 설계를 적용한다.
Y에서 긴 범위 의존성을 모델링하기 위해 다중 헤드 자기 주의(MHSA) 블록을 사용하고 U 및 V에는 채널 단위 제거기(CWD)를 적용한다.
향상된 Y, U, V를 다단계 수축 및 확장 융합(MSEF) 블록과 최종 합성 계층으로 융합해 출력을 생성한다.
Smooth L1, 지각, 히스토그램, PSNR, 색상 및 MS-SSIM 항들을 결합한 하이브리드 손실을 채택해 모델을 훈련한다.
데이터 증강과 코사인 감소 학습률 스케줄을 사용해 LOL 데이터셋에서 학습 및 평가한다.

실험 결과

연구 질문

RQ1YUV 공간에서 경량 Transformer 기반 아키텍처가 훨씬 적은 파라미터와 FLOPS로도 경쟁력 있는 LLIE 성능을 달성할 수 있는가?
RQ2LLIE에서 휘도와 색도 처리를 분리하는 것이 색 정확도와 지각 품질을 향상시키는가?
RQ3제안된 하이브리드 손실이 단일 목적 손실과 비교해 전체 이미지 품질, 색 정확도 및 구조적 유사성을 개선하는가?

주요 결과

Method	FLOPS (G)	Params (M)	LOL-v1 PSNR	LOL-v1 SSIM	LOL-v2-real PSNR	LOL-v2-real SSIM	LOL-v2-syn PSNR	LOL-v2-syn SSIM
LYT-Net	3.49	0.045	24.13	0.844	22.93	0.840	23.33	0.905

LYT-Net은 LOL-v1, LOL-v2-real, LOL-v2-syn 데이터셋에서 상위 3위에 해당하는 결과를 달성한다.
모델은 3.49 GFLOPS 및 0.045M 파라미터를 사용해 초 경량 설계를 나타낸다.
정량적 결과는 PSNR/SSIM이 SOTA 방법과 일치하는 향상을 보이면서도 복잡도는 현저히 낮음을 시사한다.
정성적 결과는 여러 무거운 기준선과 비교해 색 왜곡 감소 및 노출의 균형을 나타낸다.
제안된 YUV 이중 경로 설계가 MHSA, MSEF, CWD 블록으로 휘도를 효과적으로 강화하면서 색도를 보존한다.
하이브리드 손실이 안정적인 훈련과 지각 및 구조적 충실성 개선에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.