[论文解读] Histogram Assisted Quality Aware Generative Model for Resolution Invariant NIR Image Colorization
HAQAGen 是一个统一的 NIR-to-RGB 着色模型,在保持纹理的同时,联合实现全局色彩统计和局部色相饱和先验,并支持自适应高分辨率推断以获得自然、真实的颜色。
We present HAQAGen, a unified generative model for resolution-invariant NIR-to-RGB colorization that balances chromatic realism with structural fidelity. The proposed model introduces (i) a combined loss term aligning the global color statistics through differentiable histogram matching, perceptual image quality measure, and feature based similarity to preserve texture information, (ii) local hue-saturation priors injected via Spatially Adaptive Denormalization (SPADE) to stabilize chromatic reconstruction, and (iii) texture-aware supervision within a Mamba backbone to preserve fine details. We introduce an adaptive-resolution inference engine that further enables high-resolution translation without sacrificing quality. Our proposed NIR-to-RGB translation model simultaneously enforces global color statistics and local chromatic consistency, while scaling to native resolutions without compromising texture fidelity or generalization. Extensive evaluations on FANVID, OMSIV, VCIP2020, and RGB2NIR using different evaluation metrics demonstrate consistent improvements over state-of-the-art baseline methods. HAQAGen produces images with sharper textures, natural colors, attaining significant gains as per perceptual metrics. These results position HAQAGen as a scalable and effective solution for NIR-to-RGB translation across diverse imaging scenarios. Project Page: https://rajeev-dw9.github.io/HAQAGen/
研究动机与目标
- 在 NIR-to-RGB 转换中动机明确并解决纹理损失、颜色失真和固定输入尺寸的问题。
- 开发一个统一框架,在实现真实色度的同时保持细致纹理。
- 结合全局颜色统计与局部色相-饱和度先验,以稳定色彩重建。
- 实现自适应分辨率推断,以在高分辨率 NIR 图像上翻译而不损失质量。
- 在多样数据集和分辨率下展示泛化能力。
提出的方法
- 双分支生成器:RGB 分支用于着色,HSV-prior 分支预测密集的 HSV 场。
- SPADE 条件化将 HSV 先验注入解码器阶段,以引导局部色彩重建。
- 可微分直方图(CDF)损失,用于使各通道的全局色彩统计对齐。
- 纹理感知监督:使用冻结的纹理自编码器和基于 VGG 的中层特征。
- 带有补丁级训练、滑动窗口测试和羽化混合的自适应分辨率推断,以在原始分辨率下保留细节。
![Figure 1 : Proposed framework. NIR features feed two branches: an HSV Predictor and an RGB Reconstruction network. HSV guides the RGB decoder via SPADE [ 23 ] , with dual discriminators and multi-term losses ensuring realism and consistency.](https://ar5iv.labs.arxiv.org/html/2601.01103/assets/x1.png)
实验结果
研究问题
- RQ1单一的 NIR-to-RGB 模型是否能够同时强化全局颜色统计与局部色彩一致性,同时保留纹理?
- RQ2通过 SPADE 引入 HSV 先验是否能提升局部颜色真实感和边缘保真度?
- RQ3自适应分辨率推断是否能在不牺牲纹理或颜色准确性的情况下实现高分辨率 NIR 图像的高质量着色?
- RQ4基于可微分直方图的颜色对齐是否能在不同数据集和分辨率上提升泛化能力?
主要发现
| Methods | PSNR ↑ | SSIM ↑ | AE ↓ | LPIPS ↓ |
|---|---|---|---|---|
| SST [30] | 14.26 | 0.57 | 5.61 | 0.361 |
| NIR-GNN [29] | 17.50 | 0.60 | 5.22 | 0.384 |
| MFF [30] | 17.39 | 0.61 | 4.69 | 0.318 |
| ATCGAN [34] | 19.59 | 0.59 | 4.33 | 0.295 |
| Restormer [35] | 19.43 | 0.54 | 4.41 | 0.267 |
| DRSformer [6] | 20.18 | 0.56 | 4.22 | 0.254 |
| MPFNet [33] | 22.14 | 0.63 | 3.68 | 0.253 |
| CoColor [32] | 23.54 | 0.69 | 2.68 | 0.233 |
| MCFNet [36] | 20.34 | 0.61 | 3.79 | 0.208 |
| ColorMamba [37] | 24.56 | 0.71 | 2.81 | 0.212 |
| HAQAGen | 24.96 | 0.71 | 2.96 | 0.180 |
- HAQAGen 在 VCIP2020 上实现了显著的定量提升(PSNR 24.96,SSIM 0.71,AE 2.96,LPIPS 0.18),相较于 12 个基线。
- 跨数据集,HAQAGen 提升了感知质量(LPIPS)和色彩保真度(AE),同时保持结构相似性(SSIM)。
- 带羽化混合的自适应滑动窗口推断在高分辨率图像上比全局缩放更好地保留纹理和色调连续性。
- 消融研究表明,完整的重建损失 L_rec 在纹理与颜色之间实现平衡;移除 CDF 或纹理项会分别降低颜色准确性或结构保真度。
- HSV-SPADE 条件化提高了 AE 和 SSIM,证实了局部色相先验的收益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。