Skip to main content
QUICK REVIEW

[論文レビュー] ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Jan-Niklas Dihlmann, Mark Boss|arXiv (Cornell University)|Mar 20, 2026
Computer Graphics and Visualization Techniques被引用数 0
ひとこと要約

ReLi3D は、クロスビュー変換を用いた統合的なフォワード推論パイプラインで、 sparse multi-view 画像から 1 秒未満で、3D ジオメトリ、空間的に変化する PBR 材料、HDR 環境照明を共同で再構成します。

ABSTRACT

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

研究の動機と目的

  • スパースな多視点画像からジオメトリ・材料・照明を共同で回復する統一アプローチの動機付け、単一視点の逆レンダリングの ill-posedness に対処する。
  • 多視点の制約を活用して材料と照明の分離と材料のリアリズムを向上させる。
  • 個別オブジェクト最適化を回避してほぼ即時推論を実現し、プロダクションワークフローに適合させる。
  • 混合ドメイン訓練を通じて合成データと実データを橋渡しし、ドメイン横断の一般化を強化する。

提案手法

  • Cross-view Fusion: 共有されたクロス条件付きトランスフォーマーが任意の数のビューを取り込み、統一されたトリプラン特徴を構築し2つの予測パスを推進する。
  • Two-path Illumination Disentanglement: ジオメトリ+外観パスがメッシュと空間的に変化する BRDF パラメータを予測する;照明パスが画像背景や物体反射を用いて RENI++ 潜在表現から HDR 環境を予測する。
  • Disentangled Training via MC+MIS: 微分可能な Monte Carlo レンダラーと Multiple Important Sampling により物理的に意味のある材料-照明の分離を強制し、混合ドメイン監督を可能にする。
  • Mixed-domain Training: 合成 PBR データと実 RGB キャプチャを組み合わせ、画像空間自己監視を用いて実世界シーンへの一般化を促進する。
Figure 1: Fast, illumination disentangled reconstructions. ReLi3D reconstructs high-quality 3D meshes with physically based materials from sparse input images, while disentangling illumination effects; all in just 0.3s. It is robustly trained on cross-domain datasets and excels in both single- and m
Figure 1: Fast, illumination disentangled reconstructions. ReLi3D reconstructs high-quality 3D meshes with physically based materials from sparse input images, while disentangling illumination effects; all in just 0.3s. It is robustly trained on cross-domain datasets and excels in both single- and m

実験結果

リサーチクエスチョン

  • RQ1材料特性と照明の分離の不確定性を多視点制約が克服できるか?
  • RQ2 sparse views からジオメトリ、空間的に変化する PBR 材料、および HDR 環境照明を単一のフォワードパスで同時予測できるか?
  • RQ3クロスビュー融合は合成データと実世界データの材料精度とリライティング忠実度にどう影響するか?
  • RQ4混合ドメイン訓練は合成と実世界データを橋渡しして、リライト可能な3D資産の一般化を改善できるか?

主な発見

  • ReLi3D はインタラクティブ速度で競争力のあるジオメトリ再構成を実現しつつ、最先端の材料・照明の分離を提供する。
  • 空間的に変化する PBR 材料(アルベド、粗さ、メタリック性)が物体表面全体に予測され、ビュー数が増えるほど改善する。
  • リライティング性能は分布外の HDR 環境に対しても優れており、地上真の照明とリライト結果が密接に一致する。
  • HDR 環境マップは sparse なビューから正確に推定され、背景情報とマルチビュー手がかりによって補助される。
  • 混合ドメイン訓練により、174k オブジェクトのみで堅牢な実世界性能を実現し、多くの大規模手法よりも大幅にデータ量を要しない。
Figure 2: ReLi3D Overview. Multi-view input images are fused by a shared cross-conditioning transformer into two parallel paths: a Geometry & Appearance Path (blue) using a Triplane Transformer to predict mesh geometry and PBR materials, and an Illumination Path (green) using a Multi-View Illuminati
Figure 2: ReLi3D Overview. Multi-view input images are fused by a shared cross-conditioning transformer into two parallel paths: a Geometry & Appearance Path (blue) using a Triplane Transformer to predict mesh geometry and PBR materials, and an Illumination Path (green) using a Multi-View Illuminati

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。