Skip to main content
QUICK REVIEW

[논문 리뷰] ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Jan-Niklas Dihlmann, Mark Boss|arXiv (Cornell University)|2026. 03. 20.
Computer Graphics and Visualization Techniques인용 수 0
한 줄 요약

ReLi3D는 희소 다중 뷰 이미지에서 3D 기하학, 시공간적으로 변화하는 PBR 재질, 그리고 HDR 환경 조명을 공동으로 재구성하는 단일의 피드포워드 파이프라인을 제시합니다. 이는 교차 뷰 트랜스포머 융합과 두 경로 예측 전략을 사용하여 1초 미만에 수행됩니다.

ABSTRACT

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

연구 동기 및 목표

  • 희소 다중 뷰 이미지에서 기하학, 재질, 조명을 함께 복구하는 통합 접근 방식을 동기부여하여 단일 뷰 역렌더링의 ill-posedness를 해결합니다.
  • 다중 뷰 제약을 활용하여 재질-조명 해리성과 재질 현실감을 향상합니다.
  • 객체별 최적화 없이 피드포워드로 거의 즉시 추론이 가능하도록 생산 워크플로에 적합하게 합니다.
  • 합성 영역과 실제 데이터를 혼합한 학습을 통해 도메인 간 일반화를 강화합니다.

제안 방법

  • Cross-view Fusion: 공유된 교차 조건 트랜스포머가 임의의 수의 뷰를 입력받아 통합 트리플플레인 특징을 구성하고 두 개의 예측 경로를 구동합니다.
  • Two-path Illumination Disentanglement: 기하+외관 경로가 메시(mesh)와 시공간적으로 변화하는 BRDF 매개변수를 예측합니다; 조명 경로는 RENI++ 잠재 표현을 사용하여 배경 이미지나 물체 반사를 통해 HDR 환경을 예측합니다.
  • Disentangled Training via MC+MIS: 다양한 중요도 샘플링을 갖춘 차분 Monte Carlo 렌더러가 물리적으로 의미 있는 재질-조명 해리를 강제하고 혼합 도메인 감독을 가능하게 합니다.
  • Mixed-domain Training: 합성 PBR 데이터와 실제 RGB 캡처를 결합하고 이미지 공간 자기감독을 사용하여 실제 현장 장면에 일반화합니다.
Figure 1: Fast, illumination disentangled reconstructions. ReLi3D reconstructs high-quality 3D meshes with physically based materials from sparse input images, while disentangling illumination effects; all in just 0.3s. It is robustly trained on cross-domain datasets and excels in both single- and m
Figure 1: Fast, illumination disentangled reconstructions. ReLi3D reconstructs high-quality 3D meshes with physically based materials from sparse input images, while disentangling illumination effects; all in just 0.3s. It is robustly trained on cross-domain datasets and excels in both single- and m

실험 결과

연구 질문

  • RQ1다중 뷰 제약이 3D 재구성에서 재질 특성의 조명 해리를 해결하는 데 불가능성을 극복할 수 있는가?
  • RQ2희소 뷰로부터 기하학, 시공간적으로 변화하는 PBR 재질, 및 HDR 환경 조명을 단일 피드포워드 패스로 공동 예측하는 것이 가능한가?
  • RQ3교차 뷰 융합이 합성 데이터와 실제 데이터 전반에서 재질 정확도와 재조명 충실도에 어떤 영향을 미치는가?
  • RQ4혼합 도메인 학습이 합성 및 실제 데이터 간 다리를 놓아 재조명 가능한 3D 자산의 일반화를 개선하는가?

주요 결과

  • ReLi3D는 인터랙티브 속도로 경쟁력 있는 기하 재구성 성능을 보이면서 재질 및 조명 해리에 대해 최신 상태의 성능을 제공합니다.
  • 객체 표면 전체에 걸쳐 시공간적으로 변화하는 PBR 재질(반사도, 매질도, 금속성)이 더 많은 뷰에서 향상됩니다.
  • 외부 분포 HDR 환경에서도 재조명 성능이 우수하며, 실제 조명과 재조명 결과 간의 차이가 더 작습니다.
  • HDR 환경 맵은 희소 뷰에서 배경 정보와 다중 뷰 신호에 의해 정확히 추정됩니다.
  • 혼합 도메인 학습은 상당히 적은 데이터(174k 객체)로도 실제 환경에서 강건한 성능을 가능하게 합니다.
Figure 2: ReLi3D Overview. Multi-view input images are fused by a shared cross-conditioning transformer into two parallel paths: a Geometry & Appearance Path (blue) using a Triplane Transformer to predict mesh geometry and PBR materials, and an Illumination Path (green) using a Multi-View Illuminati
Figure 2: ReLi3D Overview. Multi-view input images are fused by a shared cross-conditioning transformer into two parallel paths: a Geometry & Appearance Path (blue) using a Triplane Transformer to predict mesh geometry and PBR materials, and an Illumination Path (green) using a Multi-View Illuminati

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.