[论文解读] Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network
该论文提出 PSG-UIENet,一种将多模态水下图像增强与语义引导结合的网络,并提供大型多模态数据集 LUQID-TD。其结果优于或可比于现有方法。
Underwater images often suffer from severe degradation caused by light absorption and scattering, leading to color distortion, low contrast and reduced visibility. Existing Underwater Image Enhancement (UIE) methods can be divided into two categories, i.e., prior-based and learning-based methods. The former rely on rigid physical assumptions that limit the adaptability, while the latter often face data scarcity and weak generalization. To address these issues, we propose a Physics-Semantics-Guided Underwater Image Enhancement Network (PSG-UIENet), which couples the Retinex-grounded illumination correction with the language-informed guidance. This network comprises a Prior-Free Illumination Estimator, a Cross-Modal Text Aligner and a Semantics-Guided Image Restorer. In particular, the restorer leverages the textual descriptions generated by the Contrastive Language-Image Pre-training (CLIP) model to inject high-level semantics for perceptually meaningful guidance. Since multimodal UIE data sets are not publicly available, we also construct a large-scale image-text UIE data set, namely, LUIQD-TD, which contains 6,418 image-reference-text triplets. To explicitly measure and optimize semantic consistency between textual descriptions and images, we further design an Image-Text Semantic Similarity (ITSS) loss function. To our knowledge, this study makes the first effort to introduce both textual guidance and the multimodal data set into UIE tasks. Extensive experiments on our data set and four publicly available data sets demonstrate that the proposed PSG-UIENet achieves superior or comparable performance against fifteen state-of-the-art methods.
研究动机与目标
- 通过将物理先验与语义引导相结合来提升水下图像增强的鲁棒性,以改善在不同水质条件下的泛化能力。
- 开发一个无先验的多尺度照明估计器,在不依赖手工先验的情况下实现照明归一化。
- 通过 CLIP 指导的引导和跨模态对齐引入高级文本语义来引导恢复。
- 构建大规模图像–参考–文本数据集 (LUQID-TD),以支持多模态 UIE 研究。
- 提出一种新颖的图像–文本语义相似性损失 (ITSS),以强制文本与增强图像之间的语义对齐。
提出的方法
- 提出包含三个组件的 PSG-UIENet:无先验照明估计器、跨模态文本对齐器、以及语义引导的图像修复器。
- 以数据驱动方式估计多尺度照明图,并将其融合以获得带光照的图像,而不使用固定先验。
- 基于可学习投影和 CLIP 文本嵌入的跨模态文本对齐器,通过 Transformer 将图像与文本特征对齐。
- 实现带跨注意力 FiLM 模块的语义引导编码器-解码器网络,将视觉与文本信息融合用于修复。
- 采用双分支的语义引导修复器,使用遮蔽和非遮蔽输入来利用语义引导并保留细节。
- 定义一个 ITSS 损失,利用 CLIP 嵌入衡量增强图像与文本描述之间的语义一致性。
- 通过总损失(包括 MSE、SSIM、感知损失和 ITSS)进行训练,以在像素保真、结构、感知与语义之间取得平衡。
实验结果
研究问题
- RQ1物理先验如何与语义引导结合,以在多样化水下条件下提升 UIE 的鲁棒性?
- RQ2一个无先验的照明估计器是否能够在不依赖手工先验的情况下提供可靠的多尺度照明归一化?
- RQ3文本引导的语义信息是否能够提升水下图像修复的感知质量和语义一致性?
- RQ4大型多模态数据集(LUQID-TD)对 UIE 性能和泛化能力有何影响?
- RQ5ITSS 损失在 UIE 过程中对图像-文本语义对齐的有效性如何?
主要发现
- PSG-UIENet 在五个基准数据集上对十五种先进 UIE 方法实现了优越或可比的性能。
- LUQID-TD 提供 6,418 个图像–参考–文本三元组,以支持多模态 UIE 研究。
- 跨模态文本对齐器和跨注意 FiLM 模块实现了修复过程中的有效语义融合与自适应调制。
- ITSS 损失明确地在增强图像与文本描述之间强制语义对齐,提升语义一致性。
- 实验结果验证了将物理启发的先验与文本引导结合用于水下增强的益处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。