QUICK REVIEW

[논문 리뷰] Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning

Bosen Lin, Feng Gao|arXiv (Cornell University)|2026. 02. 11.

Image Enhancement Techniques인용 수 0

한 줄 요약

SUCode는 시맨틱 인식 픽셀 수준의 코드북과 지역별 저하에 맞춘 세 단계 훈련 패러다임을 도입하여 UIE를 지역별 저하에 적응시키고, 전체 참조 메트릭에서 최첨단 결과를 달성하며 무참조 성능에서도 경쟁력을 보인다.

ABSTRACT

Underwater Image Enhancement (UIE) is an ill-posed problem where natural clean references are not available, and the degradation levels vary significantly across semantic regions. Existing UIE methods treat images with a single global model and ignore the inconsistent degradation of different scene components. This oversight leads to significant color distortions and loss of fine details in heterogeneous underwater scenes, especially where degradation varies significantly across different image regions. Therefore, we propose SUCode (Semantic-aware Underwater Codebook Network), which achieves adaptive UIE from semantic-aware discrete codebook representation. Compared with one-shot codebook-based methods, SUCode exploits semantic-aware, pixel-level codebook representation tailored to heterogeneous underwater degradation. A three-stage training paradigm is employed to represent raw underwater image features to avoid pseudo ground-truth contamination. Gated Channel Attention Module (GCAM) and Frequency-Aware Feature Fusion (FAFF) jointly integrate channel and frequency cues for faithful color restoration and texture recovery. Extensive experiments on multiple benchmarks demonstrate that SUCode achieves state-of-the-art performance, outperforming recent UIE methods on both reference and no-reference metrics. The code will be made public available at https://github.com/oucailab/SUCode.

연구 동기 및 목표

해양 영상의 비정형성 및 영역별 저하를 시맨틱 인식 이산 표현을 도입하여 다룬다.
시맨틱 마스크에 의해 가이드되는 픽셀 수준의 카테고리별 코드북을 학습하여 공동 복원 및 향상을 달성한다.
의사-ground-truth 오염을 완화하기 위해 코드북 학습, 표현, 향상을 분리하는 세 단계 훈련 패러다임.
의미 일관성을 유지하면서 색 재현성 및 질감 세부를 개선하기 위해 GCAM과 FAFF를 제안한다.

제안 방법

원시 해양 이미지와 시맨틱 마스크를 사용하여 C개의 시맨틱 클래스에 대한 시맨틱-카테고리 특화 코드북 Z_c를 학습한다.
2단계 자기복구: 가중치 예측기를 통해 클래스별 양자화 특징을 가중 합산하여 통일된 이산 표현을 합성한다.
3단계 향상: 도메인 적응 특징 모듈레이션으로 FAFF를 사용하여 원시 특징과 향상 특징을 융합하고 색상 인식 복원을 위한 GCAM이 포함된 이중 디코더로 동작한다.
G_q가 원시 이미지를 복구하고 G_r가 Swin Transformer 기반 가중치 예측기로 도메인 변환을 지원하는 이중 디코더 아키텍처를 사용한다.
GCAM은 수중 색상 캐스팅을 다루고 색상 현실감을 유지하기 위해 색상 채널의 가중치를 재조정한다.
FAFF는 실수 FFT를 사용한 주파수 도메인 융합, 위상 보존, 크기 모듈레이션, 그리고 선형 가변 특징 모듈레이션으로 구조를 유지하면서 향상된 질감을 전달한다.

Figure 1: The comparison of the training and testing pipeline and enhance results between different codebook generation methods. The proposed SUCode’s result is sharper and clearer, with more natural color.

실험 결과

연구 질문

RQ1의미 정보가 UIE의 이산 코드북 학습에 어떻게 도입되어 영역별 저하를 다룰 수 있는가?
RQ2의사-ground-truth 참조에 대한 의존성을 완화하면서 세 단계 훈련 패러다임이 견고한 표현 학습에 기여하는가?
RQ3시맨틱 인식 픽셀 수준의 코드북이 한 번에 학습하는 코드북이나 카테고리 비특이적 코드북보다 복원 품질을 향상시키는가?
RQ4주파수 도메인 특징 융합(FAFF)과 GCAM이 수중 영상에서 더 나은 색상 재현 및 질감 복원을 제공하는가?

주요 결과

방법	SUIM-E SSIM	SUIM-E PSNR	SUIM-E LPIPS	SUIM-E UCIQE	SUIM-E UIQM	UIEB SSIM	UIEB PSNR	UIEB LPIPS	UIEB UCIQE	UIEB UIQM
Fusion	0.876	16.824	0.226	58.413	2.811	0.907	18.483	0.211	52.823	3.251
IBLA	0.788	16.019	0.221	62.498	1.870	0.771	15.009	0.341	53.816	2.346
ULAP	0.860	16.574	0.232	59.746	2.174	0.902	17.871	0.233	52.620	3.309
UDCP	0.581	11.694	0.308	62.172	1.815	0.603	11.001	0.399	59.492	2.147
WaterNet	0.907	22.295	0.144	60.999	2.807	0.898	21.566	0.237	61.805	3.314
UColor	0.898	22.860	0.145	62.436	2.860	0.906	22.266	0.187	59.176	3.316
UShape	0.851	21.369	0.147	53.451	2.969	0.819	20.266	0.219	48.406	3.296
CCMSR	0.896	22.028	0.161	60.129	2.875	0.914	22.761	0.180	57.084	3.274
WfDiff	0.853	16.176	0.184	57.052	2.701	0.888	18.994	0.214	53.269	3.255
SMDR-IS	0.896	22.082	0.146	62.600	2.749	0.924	22.232	0.166	61.559	2.952
AMSIN	0.902	21.923	0.125	61.399	2.762	0.921	22.635	0.146	62.332	3.309
RUE-Net	0.923	22.902	0.121	62.500	2.776	0.923	22.743	0.164	62.357	3.260
HCLR-Net	0.902	22.317	0.124	58.765	3.360	0.902	22.317	0.124	58.599	3.279
FDCE-Net	0.923	23.039	0.141	58.765	3.360	0.923	23.039	0.141	58.765	3.360
SS-UIE	0.871	21.713	0.182	59.538	2.815	0.850	21.006	0.255	58.919	3.066
CDF-UIE	0.892	22.089	0.116	54.826	2.838	0.886	21.592	0.159	54.219	3.333
FeMaSR	0.908	22.749	0.100	62.605	2.841	0.883	22.733	0.137	62.675	3.301
AdaCode	0.886	22.329	0.105	62.409	2.812	0.818	21.792	0.156	60.835	3.216
RIDCP	0.509	13.407	0.572	42.184	2.533	0.573	14.915	0.487	48.679	2.246
IPC-Dehaze	0.823	13.869	0.381	50.837	2.252	0.852	16.923	0.226	54.777	2.352
CodeUNet	0.590	17.349	0.447	54.769	2.705	0.836	21.468	0.196	59.650	3.383
SUCode(Ours)	0.939	23.908	0.087	62.618	2.878	0.925	23.857	0.124	63.136	3.174

SUCode는 SUIM-E 및 UIEB 데이터셋에서 전체 참조 메트릭(PSNR, SSIM, LPIPS)에서 최첨단 성능을 달성한다.
SUCode는 경쟁력 있는 무참조 메트릭(UCIQE, UIQM)을 제공하며, 특히 SUIM-E와 UIEB 모두에서 최고 UCIQE를 달성한다.
데이터셋 간 평가에서 일반화가 강하게 나타나며, UIEB에서 학습하고 LSUI 및 UFO-120에서 테스트할 때 여러 베이스라인을 능가한다.
시맨틱 인식 코드북은 비시맨틱 코드북 접근법보다 더 선명하고 자연스러운 색상 복원 및 질감 보존을 이끈다.
세 단계 학습 전략은 무정형 ground-truth 문제를 효과적으로 다루고 향상을 시맨틱 콘텐츠와 일치시킨다.

Figure 2: The overall structure of the proposed SUCode. In stage I, the semantic-aware category‑specific codebooks are updated with the mask $m$ . Stage II is a partition and synthesis process of the codebook, achieved through the self-reconstruction of raw underwater images. In stage III, domain co

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.