QUICK REVIEW

[論文レビュー] LYT-NET: Lightweight YUV Transformer-based Network for Low-light Image Enhancement

Alexandru Brateanu, Raul Balmez|arXiv (Cornell University)|Jan 26, 2024

Image Enhancement Techniques被引用数 5

ひとこと要約

LYT-Net は YUV 空間で動作し、輝度と色度を分離して強化する軽量なトランスフォーマーベースの LLIE モデルを導入し、極めて低い計算量で最先端に近い性能を実現する。

ABSTRACT

This letter introduces LYT-Net, a novel lightweight transformer-based model for low-light image enhancement (LLIE). LYT-Net consists of several layers and detachable blocks, including our novel blocks--Channel-Wise Denoiser (CWD) and Multi-Stage Squeeze & Excite Fusion (MSEF)--along with the traditional Transformer block, Multi-Headed Self-Attention (MHSA). In our method we adopt a dual-path approach, treating chrominance channels U and V and luminance channel Y as separate entities to help the model better handle illumination adjustment and corruption restoration. Our comprehensive evaluation on established LLIE datasets demonstrates that, despite its low complexity, our model outperforms recent LLIE methods. The source code and pre-trained models are available at https://github.com/albrateanu/LYT-Net

研究の動機と目的

色忠実度を保ちながら効率的な低照度画像強化を推進する。
YUV 色空間を活用して輝度と色度処理を分離し、知覚品質を向上させる。
デノイズ、フュージョン、アテンション用の専用ブロックを備えた軽量なトランスフォーマー型アーキテクチャを開発する。
知覚品質、色忠実度、構造類似性を同時最適化するハイブリッド損失を提案する。

提案手法

入力 RGB 画像を処理し YUV に変換して Y, U, V チャンネルを分離する。
特化ブロック（MHSA、MSEF、CWD）を用いた輝度（Y）と色度（U、V）処理のデュアルパス設計を適用する。
Y に対する長距離依存性をモデル化する多頭自己注意 (MHSA) ブロックを使用; U および V には Channel-wise Denoiser (CWD) を適用する。
強化された Y, U, V を Multi-stage Squeeze & Excite Fusion (MSEF) ブロックと最終畳み込み層を介して融合し出力を生成する。
Smooth L1、知覚、ヒストグラム、PSNR、色、MS-SSIM の項を組み合わせたハイブリッド損失を採用してモデルを訓練する。
データ拡張とコサインアニーリング学習率スケジュールを用いて LOL データセットで訓練および評価する。

実験結果

リサーチクエスチョン

RQ1YUV 空間での軽量なトランスフォーマー型アーキテクチャは、はるかに少ないパラメータと FLOPS で競争力のある LLIE 性能を達成できるか？
RQ2輝度と色度処理を分離することで LLIE の色忠実度と知覚品質が向上するか？
RQ3提案されたハイブリッド損失は、単一目的損失と比較して総合的な画像品質、色精度、構造的類似性を改善するか？

主な発見

手法	FLOPS (G)	パラメータ (M)	LOL-v1 PSNR	LOL-v1 SSIM	LOL-v2-real PSNR	LOL-v2-real SSIM	LOL-v2-syn PSNR	LOL-v2-syn SSIM
LYT-Net	3.49	0.045	24.13	0.844	22.93	0.840	23.33	0.905

LYT-Net は LOL-v1、LOL-v2-real、LOL-v2-syn データセットで上位3位を達成。
本モデルは 3.49 GFLOPS および 0.045M パラメータを使用し、超軽量設計を示す。
定量的結果は、SOTA 手法と一致する PSNR/SSIM 改善を示しつつ、はるかに低い複雑さを維持。
定性的結果は、いくつかの重いベースラインと比較して色の歪みが低減され、露出が均一であることを示す。
提案された YUV デュアルパス設計と MHSA、MSEF、CWD ブロックは、輝度を効果的に強化しつつ色度を保持する。
ハイブリッド損失は安定した学習と知覚・構造的忠実度の向上に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。