[논문 리뷰] Histogram Assisted Quality Aware Generative Model for Resolution Invariant NIR Image Colorization
HAQAGen은 전역 색상 통계와 로컬 색채 선행 정보를 공동으로 강제하면서 질감을 보존하고 적응형 고해상도 추론을 가능하게 하는 단일 NIR-to-RGB 색상화 모델이다.
We present HAQAGen, a unified generative model for resolution-invariant NIR-to-RGB colorization that balances chromatic realism with structural fidelity. The proposed model introduces (i) a combined loss term aligning the global color statistics through differentiable histogram matching, perceptual image quality measure, and feature based similarity to preserve texture information, (ii) local hue-saturation priors injected via Spatially Adaptive Denormalization (SPADE) to stabilize chromatic reconstruction, and (iii) texture-aware supervision within a Mamba backbone to preserve fine details. We introduce an adaptive-resolution inference engine that further enables high-resolution translation without sacrificing quality. Our proposed NIR-to-RGB translation model simultaneously enforces global color statistics and local chromatic consistency, while scaling to native resolutions without compromising texture fidelity or generalization. Extensive evaluations on FANVID, OMSIV, VCIP2020, and RGB2NIR using different evaluation metrics demonstrate consistent improvements over state-of-the-art baseline methods. HAQAGen produces images with sharper textures, natural colors, attaining significant gains as per perceptual metrics. These results position HAQAGen as a scalable and effective solution for NIR-to-RGB translation across diverse imaging scenarios. Project Page: https://rajeev-dw9.github.io/HAQAGen/
연구 동기 및 목표
- NIR-to-RGB 변환에서 질감 손실, 색상 왜곡, 고정 입력 크기를 동기 부여하고 해결한다.
- 정교한 질감을 보존하면서 현실적인 색도 특성을 달성하는 단일 프레임워크를 개발한다.
- 전역 색상 통계와 로컬 색조-채도 선행 정보를 통합하여 색상 재구성을 안정화한다.
- 품질 손실 없이 고해상도 NIR 이미지를 변환하기 위한 적응형 해상도 추론을 가능하게 한다.
- 다양한 데이터 세트와 해상도에서 일반화 가능성을 보여준다.
제안 방법
- 이중 분기 생성기: 색상화를 위한 RGB 분기와 조밀한 HSV 필드를 예측하는 HSV-선행 분기가 있다.
- SPADE 조건화가 디코더 단계에 HSV 선행 정보를 주입하여 로컬 색상 재구성을 안내한다.
- 전역 색상 통계를 채널 간에 정렬하기 위한 미분 가능한 히스토그램(CDF) 손실.
- 고정된 질감 자동인코더와 VGG 기반 중간 수준 특징을 사용하는 질감 인식 감독.
- 패치 기반 학습, 슬라이딩 윈도우 테스트, 페더 블렌딩을 포함한 적응형 해상도 추론으로 원래 해상도에서 세부 정보를 보존한다.
![Figure 1 : Proposed framework. NIR features feed two branches: an HSV Predictor and an RGB Reconstruction network. HSV guides the RGB decoder via SPADE [ 23 ] , with dual discriminators and multi-term losses ensuring realism and consistency.](https://ar5iv.labs.arxiv.org/html/2601.01103/assets/x1.png)
실험 결과
연구 질문
- RQ1하나의 NIR-to-RGB 모델이 전역 색상 통계와 로컬 색상 일관성을 동시에 강제하면서 질감을 보존할 수 있는가?
- RQ2SPADE를 통한 HSV 선행 정보의 도입이 로컬 색상 현실성과 엣지 선도에 긍정적인 영향을 미치는가?
- RQ3적응형 해상도 추론이 고해상도 NIR 이미지의 색상화를 질감이나 색 정확도를 손상시키지 않고 가능하게 하는가?
- RQ4미분 가능한 히스토그램 기반 색상 정렬이 데이터 세트와 해상도에 따른 일반화를 개선하는가?
주요 결과
| Methods | PSNR ↑ | SSIM ↑ | AE ↓ | LPIPS ↓ |
|---|---|---|---|---|
| SST [30] | 14.26 | 0.57 | 5.61 | 0.361 |
| NIR-GNN [29] | 17.50 | 0.60 | 5.22 | 0.384 |
| MFF [30] | 17.39 | 0.61 | 4.69 | 0.318 |
| ATCGAN [34] | 19.59 | 0.59 | 4.33 | 0.295 |
| Restormer [35] | 19.43 | 0.54 | 4.41 | 0.267 |
| DRSformer [6] | 20.18 | 0.56 | 4.22 | 0.254 |
| MPFNet [33] | 22.14 | 0.63 | 3.68 | 0.253 |
| CoColor [32] | 23.54 | 0.69 | 2.68 | 0.233 |
| MCFNet [36] | 20.34 | 0.61 | 3.79 | 0.208 |
| ColorMamba [37] | 24.56 | 0.71 | 2.81 | 0.212 |
| HAQAGen | 24.96 | 0.71 | 2.96 | 0.180 |
- HAQAGen은 VCIP2020에서 강력한 정량적 이점을 달성한다(PSNR 24.96, SSIM 0.71, AE 2.96, LPIPS 0.180) — 12개 기초 모델과 비교 시.
- 다양한 데이터 세트에서 HAQAGen은 지각 품질(LPIPS)과 색채 충실도(AE)를 개선하며 구조적 유사성(SSIM)을 유지한다.
- 패치 기반의 슬라이딩 윈도우 추론과 페더 블렌딩은 고해상도 이미지에서 텍스처와 색조 연속성을 전역 리사이징보다 더 잘 보존한다.
- 소거 연구에서 전체 재구성 손실 L_rec가 텍스처와 색상 간의 균형을 이룬다; CDF 또는 질감 항목을 제거하면 색 정확도나 구조가 각각 저하된다.
- HSV-SPADE 조건화가 AE와 SSIM을 향상시키며 로컬 색조 선행 정보의 이점을 확인한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.