QUICK REVIEW

[논문 리뷰] Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Shixuan Xu, Yabo Liu|arXiv (Cornell University)|2026. 03. 07.

Image Enhancement Techniques인용 수 0

한 줄 요약

이 논문은 Retinex 기반 조도 추정과 CLIP 가이드 기반의 의미론적 가이드를 결합한 다중 모달 해저 영상 향상 네트워크 PSG-UIENet과 대규모 다중 모달 데이터셋 LUQID-TD를 도입한다. 이는 최첨단 방법과 비교하여 우수하거나 비슷한 성능을 달성한다.

ABSTRACT

Underwater images often suffer from severe degradation caused by light absorption and scattering, leading to color distortion, low contrast and reduced visibility. Existing Underwater Image Enhancement (UIE) methods can be divided into two categories, i.e., prior-based and learning-based methods. The former rely on rigid physical assumptions that limit the adaptability, while the latter often face data scarcity and weak generalization. To address these issues, we propose a Physics-Semantics-Guided Underwater Image Enhancement Network (PSG-UIENet), which couples the Retinex-grounded illumination correction with the language-informed guidance. This network comprises a Prior-Free Illumination Estimator, a Cross-Modal Text Aligner and a Semantics-Guided Image Restorer. In particular, the restorer leverages the textual descriptions generated by the Contrastive Language-Image Pre-training (CLIP) model to inject high-level semantics for perceptually meaningful guidance. Since multimodal UIE data sets are not publicly available, we also construct a large-scale image-text UIE data set, namely, LUIQD-TD, which contains 6,418 image-reference-text triplets. To explicitly measure and optimize semantic consistency between textual descriptions and images, we further design an Image-Text Semantic Similarity (ITSS) loss function. To our knowledge, this study makes the first effort to introduce both textual guidance and the multimodal data set into UIE tasks. Extensive experiments on our data set and four publicly available data sets demonstrate that the proposed PSG-UIENet achieves superior or comparable performance against fifteen state-of-the-art methods.

연구 동기 및 목표

다양한 수역 조건에서 일반화 성능을 향상시키기 위해 물리적 선험과 의미 지침을 결합하여 강인한 해저 영상 향상을 목표로 한다.
손으로 설계된 선험 없이 조명을 정규화하기 위한 선험-프리 다중 스케일 조도 추정기를 개발한다.
CLIP-가이드 가이드와 교차 모달 정렬을 통해 고수준 텍스트 의미를 포함하고 복원 과정을 이끄는 것을 목표로 한다.
다중 모달 UIE 연구를 가능하게 하기 위해 대규모 이미지-참조-텍스트 데이터셋(LUQID-TD)을 구축한다.
텍스트와 향상된 이미지 간의 의미 정합을 강제하기 위한 새로운 이미지-텍스트 의미 유사도 손실(ITSS)을 제안한다.

제안 방법

Prior-Free Illumination Estimator, Cross-Modal Text Aligner, Semantics-Guided Image Restorer의 세 구성으로 PSG-UIENet를 도입한다.
데이터 기반 방식으로 다중 스케일 조도 맵을 추정하고 고정된 선험 없이 조명을 정규화된 밝은 이미지로 융합한다.
학습 가능한 투영과 CLIP 텍스트 임베딩을 활용하여 이미지와 텍스트 특징을 Transformer를 통해 정렬하는 Cross-Modal Text Aligner를 사용한다.
시각 정보와 텍스트 정보를 융합하기 위해 Cross-Attention FiLM 모듈을 갖춘 Semantics-Guided Encoder-Decoder 네트워크를 구현한다.
의미 가이드를 활용하고 세부 정보를 보존하기 위해 마스킹 입력과 비마스킹 입력을 사용하는 이중 분기 Semantics-Guided Restorer를 도입한다.
CLIP 임베딩을 사용하여 향상된 이미지와 텍스트 설명 간의 의미 일치를 측정하는 ITSS 손실을 정의한다.
픽셀 충실도, 구조, 지각, 의미의 균형을 맞추기 위해 MSE, SSIM, perceptual loss, ITSS를 결합한 총 손실로 학습한다.

실험 결과

연구 질문

RQ1다양한 해양 조건에서 UIE의 강인성을 향상시키기 위해 물리적 선험과 의미 지침을 어떻게 통합할 수 있는가?
RQ2손으로 설계된 선험 없이 다중 스케일 조도 정규화를 제공할 수 있는 선험-프리 조도 추정기가 있는가?
RQ3텍스트 지향 의미 정보가 해저 영상 복원에서 지각적 품질과 의미 일관성을 개선하는가?
RQ4대규모 다중 모달 데이터셋(LUQID-TD)이 UIE 성능과 일반화에 어떤 영향을 미치는가?
RQ5ITSS 손실이 UIE 중 이미지-텍스트 의미 정렬을 얼마나 효과적으로 강제하는가?

주요 결과

PSG-UIENet가 다섯 개 벤치마크 데이터셋에서 열다섯 가지 최첨단 UIE 방법 대비 우수하거나 비슷한 성능을 달성한다.
LUQID-TD는 다중 모달 UIE 연구를 가능하게 하는 6,418 이미지–참조–텍스트 삼중항을 제공한다.
Cross-Modal Text Aligner와 Cross-Attention FiLM 모듈은 복원 과정에서 효과적인 의미 융합과 적응적 조정을 가능하게 한다.
ITSS 손실은 향상된 이미지와 텍스트 설명 간의 의미 정합을 명시적으로 강제하여 의미 일관성을 향상시킨다.
실험 결과는 해양 향상을 위한 물리 기반 선험과 텍스트 지guidance를 결합하는 것이 유익하다는 것을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.