Skip to main content
QUICK REVIEW

[論文レビュー] Histogram Assisted Quality Aware Generative Model for Resolution Invariant NIR Image Colorization

Abhinav Attri, Rajeev Ranjan Dwivedi|arXiv (Cornell University)|Jan 3, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

HAQAGen は、グローバルな色統計と局所的な色相 priors を同時に適用しつつ、質感を保持し高解像度推論を適応的に可能にする統一的な NIR から RGB への着色モデルです。

ABSTRACT

We present HAQAGen, a unified generative model for resolution-invariant NIR-to-RGB colorization that balances chromatic realism with structural fidelity. The proposed model introduces (i) a combined loss term aligning the global color statistics through differentiable histogram matching, perceptual image quality measure, and feature based similarity to preserve texture information, (ii) local hue-saturation priors injected via Spatially Adaptive Denormalization (SPADE) to stabilize chromatic reconstruction, and (iii) texture-aware supervision within a Mamba backbone to preserve fine details. We introduce an adaptive-resolution inference engine that further enables high-resolution translation without sacrificing quality. Our proposed NIR-to-RGB translation model simultaneously enforces global color statistics and local chromatic consistency, while scaling to native resolutions without compromising texture fidelity or generalization. Extensive evaluations on FANVID, OMSIV, VCIP2020, and RGB2NIR using different evaluation metrics demonstrate consistent improvements over state-of-the-art baseline methods. HAQAGen produces images with sharper textures, natural colors, attaining significant gains as per perceptual metrics. These results position HAQAGen as a scalable and effective solution for NIR-to-RGB translation across diverse imaging scenarios. Project Page: https://rajeev-dw9.github.io/HAQAGen/

研究の動機と目的

  • NIR から RGB への翻訳における質感損失、カラーの歪み、固定入力サイズの問題を動機づけて対処する。
  • 細かな質感を保持しつつ、現実的な色度を達成する統一フレームワークを開発する。
  • 全局的な色統計と局所的な色相・彩度 priors を取り入れて色再構成を安定化する。
  • 品質を損なうことなく高解像度 NIR 画像の適応解像度推論を可能にする。
  • 多様なデータセットと解像度での一般化を示す。

提案手法

  • RGB ブランチによる着色と、密な HSV フィールドを予測する HSV-prior ブランチの二重ブランチ生成器。
  • SPADE 条件付けによりデコーダー段へ HSV priors を注入し、局所的な色再構成を導く。
  • チャネル間のグローバルな色統計を整える微分可能なヒストグラム(CDF)損失。
  • 凍結した質感オートエンコーダと VGG ベースの中間特徴を用いた質感認識型監督。
  • パッチベースの訓練、スライディングウィンドウ推論、羽毛状ブレンディングによるネイティブ解像度でのディテール保存を備えた適応解像度推論。
Figure 1 : Proposed framework. NIR features feed two branches: an HSV Predictor and an RGB Reconstruction network. HSV guides the RGB decoder via SPADE [ 23 ] , with dual discriminators and multi-term losses ensuring realism and consistency.
Figure 1 : Proposed framework. NIR features feed two branches: an HSV Predictor and an RGB Reconstruction network. HSV guides the RGB decoder via SPADE [ 23 ] , with dual discriminators and multi-term losses ensuring realism and consistency.

実験結果

リサーチクエスチョン

  • RQ1単一の NIR から RGB へのモデルが、質感を保持しつつグローバルな色統計と局所的な色相整合性を同時に強制できるか。
  • RQ2SPADE を介した HSV priors の組込みは局所的色実在感とエッジ忠実度を改善するか。
  • RQ3適応解像度推論は高解像度 NIR 画像の高品質な着色を、質感や色精度を損なうことなく実現できるか。
  • RQ4微分可能なヒストグラムベースのカラー整列はデータセットや解像度を越えた一般化を改善するか。

主な発見

MethodsPSNR ↑SSIM ↑AE ↓LPIPS ↓
SST [30]14.260.575.610.361
NIR-GNN [29]17.500.605.220.384
MFF [30]17.390.614.690.318
ATCGAN [34]19.590.594.330.295
Restormer [35]19.430.544.410.267
DRSformer [6]20.180.564.220.254
MPFNet [33]22.140.633.680.253
CoColor [32]23.540.692.680.233
MCFNet [36]20.340.613.790.208
ColorMamba [37]24.560.712.810.212
HAQAGen24.960.712.960.180
  • HAQAGen は VCIP2020 での定量的な改善を達成(PSNR 24.96, SSIM 0.71, AE 2.96, LPIPS 0.18、12 件のベースラインと比較)。
  • データセットを跨いで、HAQAGen は知覚品質(LPIPS)と色忠実度(AE)を改善しつつ構造類似性(SSIM)を維持。
  • 羽毛ブレンディングを伴う適応的スライディングウィンドウ推論は、高解像度画像の質感と色調の連続性を、グローバルなリサイズよりも良く保存。
  • アブレーション研究は、全体の再構成損失 L_rec が質感と色のバランスを取ることを示し、CDF または質感項を除くと色精度または構造が低下。
  • HSV-SPADE 条件付けは AE と SSIM を改善し、局所的な色相 priors の有効性を確認。
Figure 2 : Comparison of FANVID dataset: (1) NIR input, (2) ground-truth RGB, (3) prediction with resizing (blurred), (4) prediction with adaptive resolution (sharper texture, better color).
Figure 2 : Comparison of FANVID dataset: (1) NIR input, (2) ground-truth RGB, (3) prediction with resizing (blurred), (4) prediction with adaptive resolution (sharper texture, better color).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。