QUICK REVIEW

[論文レビュー] Towards High-quality HDR Deghosting with Conditional Diffusion Models

Qingsen Yan, Tao Hu|arXiv (Cornell University)|Nov 2, 2023

Image Enhancement Techniques被引用数 17

ひとこと要約

この論文は HDR deghosting を条件付き拡散ベースの画像生成として定式化し、学習済みの LDR 特徴をガイダンスとして HDR 再構築に用い、アーティファクトを低減するためのスライディングウィンドウノイズ推定を導入します。

ABSTRACT

High Dynamic Range (HDR) images can be recovered from several Low Dynamic Range (LDR) images by existing Deep Neural Networks (DNNs) techniques. Despite the remarkable progress, DNN-based methods still generate ghosting artifacts when LDR images have saturation and large motion, which hinders potential applications in real-world scenarios. To address this challenge, we formulate the HDR deghosting problem as an image generation that leverages LDR features as the diffusion model's condition, consisting of the feature condition generator and the noise predictor. Feature condition generator employs attention and Domain Feature Alignment (DFA) layer to transform the intermediate features to avoid ghosting artifacts. With the learned features as conditions, the noise predictor leverages a stochastic iterative denoising process for diffusion models to generate an HDR image by steering the sampling process. Furthermore, to mitigate semantic confusion caused by the saturation problem of LDR images, we design a sliding window noise estimator to sample smooth noise in a patch-based manner. In addition, an image space loss is proposed to avoid the color distortion of the estimated HDR results. We empirically evaluate our model on benchmark datasets for HDR imaging. The results demonstrate that our approach achieves state-of-the-art performances and well generalization to real-world images.

研究の動機と目的

Saturationとモーションによるゴーストの存在下で、多露光 LDR 画像から HDR 再構築を動機づける。
LDR 特徴を利用して逆過程を条件付ける DDPM ベースのフレームワークを提案し、HDR 生成をガイドする。
特徴の整合、パッチベースのノイズ推定、および画像空間ロスを通じて semantics の混乱と色の歪みを低減する。
標準 HDR データセットで最先端の性能を示し、実世界画像に対する頑健性を示す。

提案手法

拡散モデルを用いて p(x|y) を学習する。ここで y は三つの LDR 画像から成り、x は HDR 目標である。
Feature Condition Generator (FCG) を導入し、DFA (Domain Feature Align) をノイズ予測器の中間特徴に適用するアファイン変調パラメータ η, γ を出力する。
Attention Network を介して implicitly aligned な LDR 特徴を取り込み、特徴マップのアファイン変換を通じてノイズ予測器をガイドする。
スライディングウィンドウノイズ推定機構 (SWNE) を採用し、滑らかでパッチベースのノイズをサンプリングして意味的混乱を低減する。
画像空間ロスを追加し、デノイズ後の実画像に対して拡散モデルの出力を整合させ、色忠実度を改善する。
トーンマップされた HDR ドメインと gamma 補正入力で学習し、拡散バックボーンには WideResNet ブロックと自己注意機構を用いた改良 UNet を使用する。

実験結果

リサーチクエスチョン

RQ1飽和と動きによる LDR シーケンスからゴーストなしで高品質な HDR 画像を再構築する条件付き拡散モデルは実現可能か。
RQ2Domain-aligned 変換を用いて LDR 条件付き特徴を学習すると HDR 再構築の意味的混乱を減らせるか。
RQ3パッチベースのスライディングウィンドウノイズ推定と画像空間ロスは、HDR 拡散モデルにおける色忠実度と知覚品質にどのように影響するか。

主な発見

モデル	PSNR-μ ↑	PSNR-L ↑	SSIM-μ ↑	SSIM-L ↑	HDR-VDP-2 ↑	LPIPS ↓	FID ↓
Our	44.11	41.73	0.9911	0.9885	65.52	0.0109	6.20

提案手法は Kalantari らの HDR データセットに対して、複数の指標で最先端の性能を達成した。
DFA 条件付き特徴を用いた拡散ベースのアプローチは、飽和部位や動的領域でのゴーストを抑制し、ディテールを保持する。
スライディングウィンドウノイズ推定は意味的混乱を低減し、パッチ間でより滑らかで整合性のある HDR 再構築をもたらす。
画像空間ロスはピクセル空間で拡散出力を制約することで色歪みを緩和するのに役立つ。
Kalantari データセットにおいて、PSNR-μ = 44.11、PSNR-L = 41.73、SSIM-μ = 0.9911、SSIM-L = 0.9885、HDR-VDP-2 = 65.52、LPIPS = 0.0109、FID = 6.20 を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。