QUICK REVIEW

[論文レビュー] Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

Shan Wang, Peixia Li|arXiv (Cornell University)|Feb 25, 2026

Computer Graphics and Visualization Techniques被引用数 0

ひとこと要約

論文は monocular depth から学習した Light–Geometry Interaction (LGI) マップを用いて、影生成とリライティングを共同で行うパイプラインと大規模 ShadRel データセットを提案し、最新のリアリズムと一貫性を達成する。

ABSTRACT

We propose Light-Geometry Interaction (LGI) maps, a novel representation that encodes light-aware occlusion from monocular depth. Unlike ray tracing, which requires full 3D reconstruction, LGI captures essential light-shadow interactions reliably and accurately, computed from off-the-shelf 2.5D depth map predictions. LGI explicitly ties illumination direction to geometry, providing a physics-inspired prior that constrains generative models. Without such prior, these models often produce floating shadows, inconsistent illumination, and implausible shadow geometry. Building on this representation, we propose a unified pipeline for joint shadow generation and relighting - unlike prior methods that treat them as disjoint tasks - capturing the intrinsic coupling of illumination and shadowing essential for modeling indirect effects. By embedding LGI into a bridge-matching generative backbone, we reduce ambiguity and enforce physically consistent light-shadow reasoning. To enable effective training, we curated the first large-scale benchmark dataset for joint shadow and relighting, covering reflections, transparency, and complex interreflections. Experiments show significant gains in realism and consistency across synthetic and real images. LGI thus bridges geometry-inspired rendering with generative modeling, enabling efficient, physically consistent shadow generation and relighting.

研究の動機と目的

単一視点の影生成とリライティングにおいて、 coherent light–shadow interactions を保証する物理情報 priors の必要性を動機づける。
深度と照明方向を結ぶ LGI マップを導入し、生成モデルを制約する。
影生成と物体レベルのリライティングを別々に扱うのではなく、統一的なパイプラインを開発する。
影・反射・間反射を含む大規模データセット（ShadRel）を作成し、モデルの訓練と評価を行う。

提案手法

LGI マップを、 monocular depth map から光の遮蔽関係を符号化する differentiable な表現として定義する。
Bridge-matching diffusion ベースの backbone を、事前学習モデルから初期化し、潜在空間 SDE drift v_theta を LGI マップとグローバル照明の手掛かりで条件付けする。
ピクセルレベルの損失を、輝度変化領域を強調する加重 L1 損失に置換し、学習を影の領域へ集中させる。
深度推定、3D リフティング、レイサンプリング、 elevation-difference 計算から LGI マップを生成し、光–幾何相互作用を捕捉する。
ShadRel データセット上で、Blender Cycles を用いて影・反射・間反射を合成したシーンをレンダリングし、合成画像と実画像の両方で評価する。
画像の調和を拡張するため、合成画像から照明を推定することを学習し、微分可能な LGI マップを活用する。

実験結果

リサーチクエスチョン

RQ1 monocular depth から導出された LGI マップが、影生成とリライティングの共同作成を導く微分可能で物理にインスパイアされた priors となり得るか。
RQ2光と幾何の結合を埋め込むことで、単一視点編集タスクにおける影と間接照明の現実感と一貫性にどのような影響があるか。
RQ3共同で影生成とリライティングをモデリングすることで、従来の別個のアプローチと比較してどの程度性能が向上するか。
RQ4ShadRel の合成データと実世界画像のドメインギャップに対して、LGI ベースの手法は頑健か。
RQ5影の controllability や画像ハーモナイゼーション設定における提案手法の性能はどうなるか。

主な発見

LGI ベースのフレームワークは、ShadRel における影の合成とリライティングの共同タスクで、潜在ブリッジマッチングベースライン（LBM）と比較して最先端の性能を達成した。
定性的な結果は、光の方向とシーン幾何に沿った影と、様々な材料での現実的なリライティングを示す。
実世界オブジェクトの挿入で、リライティングのみを扱うベースラインよりも現実感と幾何的一貫性の両方で上回る。
クリーンバックグラウンドの影コントロール・ベンチマークにおいて、従来手法と比較して影の形状と密度が正確であり、同等またはそれ以上の性能を示す。
DESOBAv2 における画像ハーモナイゼーションでは、総合指標は競争力を維持しつつ、影領域の精度が改善された。
アブレーションにより、LGI モジュールが性能を大きく向上させることが示された。深度のみの変種は寄与が小さく、ノイズのある深度と組み合わせると低下する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。