[論文レビュー] You Only Need 90K Parameters to Adapt Light: A Light Weight Transformer for Image Enhancement and Exposure Correction
Illumination Adaptive Transformer (IAT) を導入する、約90kパラメータの軽量トランスフォーマーで、ISP関連パラメータを適応させて困難な照明条件下で画像を改善し、下流タスクを改善します。
Challenging illumination conditions (low-light, under-exposure and over-exposure) in the real world not only cast an unpleasant visual appearance but also taint the computer vision tasks. After camera captures the raw-RGB data, it renders standard sRGB images with image signal processor (ISP). By decomposing ISP pipeline into local and global image components, we propose a lightweight fast Illumination Adaptive Transformer (IAT) to restore the normal lit sRGB image from either low-light or under/over-exposure conditions. Specifically, IAT uses attention queries to represent and adjust the ISP-related parameters such as colour correction, gamma correction. With only ~90k parameters and ~0.004s processing speed, our IAT consistently achieves superior performance over SOTA on the current benchmark low-light enhancement and exposure correction datasets. Competitive experimental performance also demonstrates that our IAT significantly enhances object detection and semantic segmentation tasks under various light conditions. Training code and pretrained model is available at https://github.com/cuiziteng/Illumination-Adaptive-Transformer.
研究の動機と目的
- 実世界の照明の多様性が視覚品質と下流のビジョンタスクに影響を与える課題に対処する。
- ISPプロセスを考慮して、入力sRGB画像を良好に照明されたターゲットへ対応づける、軽量でモバイルフレンドリーなモデルを開発する。
- トランスフォーマーベースの枠組みの中で、局所的なピクセル単位の調整とグローバルなISPパラメータ推定をデカップリングする。
- 低照度強化、露出補正、および下流の検出/セマンティックセグメンテーションタスクにおいて優れた性能を示しつつ、効率性を維持する。
提案手法
- ISP に起因する照明変化を局所的なピクセル単位ブランチとグローバルなISPブランチに分解する。
- 局所ブランチで標準的な自己注意を深さ方向畳み込みに置換し、モデルを軽量に保つ。
- グローバルISPブランチで学習可能なアテンションクエリを用いてカラー変換行列とガンマを予測し、ISP風の調整を導く。
- 軽量トランスフォーマーモジュールの安定した学習のために、新しいライト正規化とLayer Scaleを導入する。
- 局所マップ (M, A) と ISP パラメータ (W, gamma) を推定する、Pixel-wise Enhancement Module(局所)とGlobal Prediction Module(グローバル)の二分岐アーキテクチャを実装する。
- 補強データセットには L1 に類似した損失と、露出補正には標準の損失を組み合わせてモデルを最適化し、データ拡張とコサイン学習率スケジュールを適用する。
実験結果
リサーチクエスチョン
- RQ1超軽量のトランスフォーマー型フレームワークは、多様な照明条件下で ISP関連パラメータを適応させて sRGB 画像を改善できるか?
- RQ2局所的なピクセル単位の調整とグローバルな ISP パラメータ推定をデカップリングすることで、復元品質とタスクのロバスト性が向上するか?
- RQ3最小限のパラメータと高速推論を維持しつつ、IAT は低レベルの画像強化、露出補正、および高レベルの検出/セマンティックセグメンテーションタスクでどのように性能を示すか?
- RQ4提案手法はリサイズせずに、モバイル対応性とさまざまな解像度にわたるスケーラビリティを備えているか?
- RQ5困難な照明条件下での下流の視覚タスクに対する IAT の影響は何か?
主な発見
- IAT は 0.09M パラメータだけで、低照度強化と露出補正のベンチマークで最先端の性能を達成する。
- 推論速度は画像あたり約0.004sで、競合法より著しく高速(約1s程度)である。
- 様々な照明条件下で、低レベルの強化だけでなく高レベルの検出/セマンティックセグメンテーションにも競争力のある、あるいは優れた結果を示す。
- IAT は局所ブランチで深さ方向畳み込みを使用し、ISP関連パラメータ(色行列とガンマ)を推定するトランスフォーマー基盤のグローバルブランチを用いることで、軽量性を維持する。
- LOL、MIT-Adobe FiveK、EXDark、ACDC、TYOLでの広範な実験は、PSNR/SSIM および mAP/mIOU の改善と、効率性指標の有利性を示す。
- このアーキテクチャは低レベルと高レベルの視覚タスクの共同強化を可能にし、アブレーションによって二分岐設計とライト正規化の利点が強調される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。