[논문 리뷰] Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning
SUCode는 시맨틱 인식 픽셀 수준의 코드북과 지역별 저하에 맞춘 세 단계 훈련 패러다임을 도입하여 UIE를 지역별 저하에 적응시키고, 전체 참조 메트릭에서 최첨단 결과를 달성하며 무참조 성능에서도 경쟁력을 보인다.
Underwater Image Enhancement (UIE) is an ill-posed problem where natural clean references are not available, and the degradation levels vary significantly across semantic regions. Existing UIE methods treat images with a single global model and ignore the inconsistent degradation of different scene components. This oversight leads to significant color distortions and loss of fine details in heterogeneous underwater scenes, especially where degradation varies significantly across different image regions. Therefore, we propose SUCode (Semantic-aware Underwater Codebook Network), which achieves adaptive UIE from semantic-aware discrete codebook representation. Compared with one-shot codebook-based methods, SUCode exploits semantic-aware, pixel-level codebook representation tailored to heterogeneous underwater degradation. A three-stage training paradigm is employed to represent raw underwater image features to avoid pseudo ground-truth contamination. Gated Channel Attention Module (GCAM) and Frequency-Aware Feature Fusion (FAFF) jointly integrate channel and frequency cues for faithful color restoration and texture recovery. Extensive experiments on multiple benchmarks demonstrate that SUCode achieves state-of-the-art performance, outperforming recent UIE methods on both reference and no-reference metrics. The code will be made public available at https://github.com/oucailab/SUCode.
연구 동기 및 목표
- 해양 영상의 비정형성 및 영역별 저하를 시맨틱 인식 이산 표현을 도입하여 다룬다.
- 시맨틱 마스크에 의해 가이드되는 픽셀 수준의 카테고리별 코드북을 학습하여 공동 복원 및 향상을 달성한다.
- 의사-ground-truth 오염을 완화하기 위해 코드북 학습, 표현, 향상을 분리하는 세 단계 훈련 패러다임.
- 의미 일관성을 유지하면서 색 재현성 및 질감 세부를 개선하기 위해 GCAM과 FAFF를 제안한다.
제안 방법
- 원시 해양 이미지와 시맨틱 마스크를 사용하여 C개의 시맨틱 클래스에 대한 시맨틱-카테고리 특화 코드북 Z_c를 학습한다.
- 2단계 자기복구: 가중치 예측기를 통해 클래스별 양자화 특징을 가중 합산하여 통일된 이산 표현을 합성한다.
- 3단계 향상: 도메인 적응 특징 모듈레이션으로 FAFF를 사용하여 원시 특징과 향상 특징을 융합하고 색상 인식 복원을 위한 GCAM이 포함된 이중 디코더로 동작한다.
- G_q가 원시 이미지를 복구하고 G_r가 Swin Transformer 기반 가중치 예측기로 도메인 변환을 지원하는 이중 디코더 아키텍처를 사용한다.
- GCAM은 수중 색상 캐스팅을 다루고 색상 현실감을 유지하기 위해 색상 채널의 가중치를 재조정한다.
- FAFF는 실수 FFT를 사용한 주파수 도메인 융합, 위상 보존, 크기 모듈레이션, 그리고 선형 가변 특징 모듈레이션으로 구조를 유지하면서 향상된 질감을 전달한다.

실험 결과
연구 질문
- RQ1의미 정보가 UIE의 이산 코드북 학습에 어떻게 도입되어 영역별 저하를 다룰 수 있는가?
- RQ2의사-ground-truth 참조에 대한 의존성을 완화하면서 세 단계 훈련 패러다임이 견고한 표현 학습에 기여하는가?
- RQ3시맨틱 인식 픽셀 수준의 코드북이 한 번에 학습하는 코드북이나 카테고리 비특이적 코드북보다 복원 품질을 향상시키는가?
- RQ4주파수 도메인 특징 융합(FAFF)과 GCAM이 수중 영상에서 더 나은 색상 재현 및 질감 복원을 제공하는가?
주요 결과
| 방법 | SUIM-E SSIM | SUIM-E PSNR | SUIM-E LPIPS | SUIM-E UCIQE | SUIM-E UIQM | UIEB SSIM | UIEB PSNR | UIEB LPIPS | UIEB UCIQE | UIEB UIQM |
|---|---|---|---|---|---|---|---|---|---|---|
| Fusion | 0.876 | 16.824 | 0.226 | 58.413 | 2.811 | 0.907 | 18.483 | 0.211 | 52.823 | 3.251 |
| IBLA | 0.788 | 16.019 | 0.221 | 62.498 | 1.870 | 0.771 | 15.009 | 0.341 | 53.816 | 2.346 |
| ULAP | 0.860 | 16.574 | 0.232 | 59.746 | 2.174 | 0.902 | 17.871 | 0.233 | 52.620 | 3.309 |
| UDCP | 0.581 | 11.694 | 0.308 | 62.172 | 1.815 | 0.603 | 11.001 | 0.399 | 59.492 | 2.147 |
| WaterNet | 0.907 | 22.295 | 0.144 | 60.999 | 2.807 | 0.898 | 21.566 | 0.237 | 61.805 | 3.314 |
| UColor | 0.898 | 22.860 | 0.145 | 62.436 | 2.860 | 0.906 | 22.266 | 0.187 | 59.176 | 3.316 |
| UShape | 0.851 | 21.369 | 0.147 | 53.451 | 2.969 | 0.819 | 20.266 | 0.219 | 48.406 | 3.296 |
| CCMSR | 0.896 | 22.028 | 0.161 | 60.129 | 2.875 | 0.914 | 22.761 | 0.180 | 57.084 | 3.274 |
| WfDiff | 0.853 | 16.176 | 0.184 | 57.052 | 2.701 | 0.888 | 18.994 | 0.214 | 53.269 | 3.255 |
| SMDR-IS | 0.896 | 22.082 | 0.146 | 62.600 | 2.749 | 0.924 | 22.232 | 0.166 | 61.559 | 2.952 |
| AMSIN | 0.902 | 21.923 | 0.125 | 61.399 | 2.762 | 0.921 | 22.635 | 0.146 | 62.332 | 3.309 |
| RUE-Net | 0.923 | 22.902 | 0.121 | 62.500 | 2.776 | 0.923 | 22.743 | 0.164 | 62.357 | 3.260 |
| HCLR-Net | 0.902 | 22.317 | 0.124 | 58.765 | 3.360 | 0.902 | 22.317 | 0.124 | 58.599 | 3.279 |
| FDCE-Net | 0.923 | 23.039 | 0.141 | 58.765 | 3.360 | 0.923 | 23.039 | 0.141 | 58.765 | 3.360 |
| SS-UIE | 0.871 | 21.713 | 0.182 | 59.538 | 2.815 | 0.850 | 21.006 | 0.255 | 58.919 | 3.066 |
| CDF-UIE | 0.892 | 22.089 | 0.116 | 54.826 | 2.838 | 0.886 | 21.592 | 0.159 | 54.219 | 3.333 |
| FeMaSR | 0.908 | 22.749 | 0.100 | 62.605 | 2.841 | 0.883 | 22.733 | 0.137 | 62.675 | 3.301 |
| AdaCode | 0.886 | 22.329 | 0.105 | 62.409 | 2.812 | 0.818 | 21.792 | 0.156 | 60.835 | 3.216 |
| RIDCP | 0.509 | 13.407 | 0.572 | 42.184 | 2.533 | 0.573 | 14.915 | 0.487 | 48.679 | 2.246 |
| IPC-Dehaze | 0.823 | 13.869 | 0.381 | 50.837 | 2.252 | 0.852 | 16.923 | 0.226 | 54.777 | 2.352 |
| CodeUNet | 0.590 | 17.349 | 0.447 | 54.769 | 2.705 | 0.836 | 21.468 | 0.196 | 59.650 | 3.383 |
| SUCode(Ours) | 0.939 | 23.908 | 0.087 | 62.618 | 2.878 | 0.925 | 23.857 | 0.124 | 63.136 | 3.174 |
- SUCode는 SUIM-E 및 UIEB 데이터셋에서 전체 참조 메트릭(PSNR, SSIM, LPIPS)에서 최첨단 성능을 달성한다.
- SUCode는 경쟁력 있는 무참조 메트릭(UCIQE, UIQM)을 제공하며, 특히 SUIM-E와 UIEB 모두에서 최고 UCIQE를 달성한다.
- 데이터셋 간 평가에서 일반화가 강하게 나타나며, UIEB에서 학습하고 LSUI 및 UFO-120에서 테스트할 때 여러 베이스라인을 능가한다.
- 시맨틱 인식 코드북은 비시맨틱 코드북 접근법보다 더 선명하고 자연스러운 색상 복원 및 질감 보존을 이끈다.
- 세 단계 학습 전략은 무정형 ground-truth 문제를 효과적으로 다루고 향상을 시맨틱 콘텐츠와 일치시킨다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.