[論文レビュー] Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network
本研究は PSG-UIENet を提案する。水中画像強調のための多モーダルネットワークで、Retinex ベースの照度推定と CLIP によるセマンティック指針を統合し、LUQID-TD という大規模多モーダルデータセットを提供する。最先端手法と同等、またはそれを上回る結果を達成。
Underwater images often suffer from severe degradation caused by light absorption and scattering, leading to color distortion, low contrast and reduced visibility. Existing Underwater Image Enhancement (UIE) methods can be divided into two categories, i.e., prior-based and learning-based methods. The former rely on rigid physical assumptions that limit the adaptability, while the latter often face data scarcity and weak generalization. To address these issues, we propose a Physics-Semantics-Guided Underwater Image Enhancement Network (PSG-UIENet), which couples the Retinex-grounded illumination correction with the language-informed guidance. This network comprises a Prior-Free Illumination Estimator, a Cross-Modal Text Aligner and a Semantics-Guided Image Restorer. In particular, the restorer leverages the textual descriptions generated by the Contrastive Language-Image Pre-training (CLIP) model to inject high-level semantics for perceptually meaningful guidance. Since multimodal UIE data sets are not publicly available, we also construct a large-scale image-text UIE data set, namely, LUIQD-TD, which contains 6,418 image-reference-text triplets. To explicitly measure and optimize semantic consistency between textual descriptions and images, we further design an Image-Text Semantic Similarity (ITSS) loss function. To our knowledge, this study makes the first effort to introduce both textual guidance and the multimodal data set into UIE tasks. Extensive experiments on our data set and four publicly available data sets demonstrate that the proposed PSG-UIENet achieves superior or comparable performance against fifteen state-of-the-art methods.
研究の動機と目的
- 物理的事前知識とセマンティック指針を組み合わせて堅牢な水中画像強調を促進し、多様な水条件に対する一般化を改善する。
- 手作りの事前知識なしで照度を正規化する事前なしの多尺度照明推定器を開発する。
- CLIP ガイドによる高レベルのテキスト意味論を組み込み、クロスモーダル整列を通じて復元を誘導する。
- 多模研究を可能にする大規模な画像–参照–テキストデータセット(LUQID-TD)を構築する。
- 画像とテキストの意味的整合性を強制する新しい ITSS(ITSS)損失を提案する。
提案手法
- PSG-UIENet を三つの構成要素で導入する:事前なし照度推定器、クロスモーダルテキストアライナー、意味ガイド付き画像復元器。
- データ駆動的にマルチスケール照度マップを推定し、固定された事前なしで照明を統合して明るい画像を得る。
- 学習可能な射影と CLIP テキスト埋め込みを用いたクロスモーダルテキストアライナーで、Transformer を介して画像とテキスト特徴を整合させる。
- セマンティクスガイド型エンコーダ-デコーダネットワークを実装し、Cross-Attention FiLM モジュールで視覚情報と文本情報を復元へ統合する。
- マスク付き入力と非マスク入力の二重分岐セマンティクスガイド復元器を用いて意味指針を活用し、細部を保持する。
- enhanced images とテキスト記述の意味的整合性を CLIP 埋め込みを用いて測る ITSS 損失を定義する。
- MSE、SSIM、知覚損失、ITSS を含む総損失で学習し、画素忠実性・構造・知覚・意味のバランスを取る。
実験結果
リサーチクエスチョン
- RQ1物理的事前知識と意味指針を統合して、多様な水中条件での UIE の堅牢性をどのように向上させられるか?
- RQ2事前なしの照度推定器は、手作りの事前知識なしで多尺度照明正規化を信頼できるものにできるか?
- RQ3テキスト指向の意味情報は水中画像復元の知覚品質と意味的一貫性を向上させるか?
- RQ4大規模な多模データセット(LUQID-TD)が UIE の性能と一般化に及ぼす影響はどの程度か?
- RQ5ITSS 損失は UIE 中の画像とテキストの意味的整合性をどれほど効果的に強制できるか?
主な発見
- PSG-UIENet は、5つのベンチマークデータセットにおいて15法の最先端UIE手法と比較して優位または同等の性能を達成。
- LUQID-TD は、マルチモーダルUIE研究を可能にする 6,418 の画像–参照–テキスト三つ組を提供。
- クロスモーダルテキストアライナーとクロスアテンション FiLM モジュールは、復元中の意味融合と適応的モジュレーションを実現。
- ITSS 損失は、 enhanced images とテキスト記述の意味的整合性を明示的に強制し、意味的一貫性を向上。
- 実験結果は、水の環境における物理インスパイアされた事前知識とテキスト指針の組み合わせの利点を検証。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。