[논문 리뷰] SAMURAI: Shape And Material from Unconstrained Real-world Arbitrary Image collections
SAMURAI는 제약 없는 야생 이미지 컬렉션으로부터 3D 형태, BRDF, 이미지별 카메라 포즈, 조명을 공동 최적화하여 완벽한 포즈나 마스크를 필요로 하지 않고 재조명 가능한 3D 자산과 메쉬를 생성합니다.
Inverse rendering of an object under entirely unknown capture conditions is a fundamental challenge in computer vision and graphics. Neural approaches such as NeRF have achieved photorealistic results on novel view synthesis, but they require known camera poses. Solving this problem with unknown camera poses is highly challenging as it requires joint optimization over shape, radiance, and pose. This problem is exacerbated when the input images are captured in the wild with varying backgrounds and illuminations. Standard pose estimation techniques fail in such image collections in the wild due to very few estimated correspondences across images. Furthermore, NeRF cannot relight a scene under any illumination, as it operates on radiance (the product of reflectance and illumination). We propose a joint optimization framework to estimate the shape, BRDF, and per-image camera pose and illumination. Our method works on in-the-wild online image collections of an object and produces relightable 3D assets for several use-cases such as AR/VR. To our knowledge, our method is the first to tackle this severely unconstrained task with minimal user interaction. Project page: https://markboss.me/publication/2022-samurai/ Video: https://youtu.be/LlYuGDjXp-8
연구 동기 및 목표
- 고정된 카메라 내부 매개변수와 깨끗한 세분화가 결여된 제약 없는 실제 이미지 컬렉션으로부터 3D 형태 및 재질 재구성을 유도한다.
- 형태, BRDF, 이미지별 조명, 그리고 이미지별 카메라 포즈/내부 매개변수를 추정하는 공동 최적화 프레임워크를 개발한다.
- 완벽한 포즈/마스크 입력에 대한 의존성을 완화하기 위해 강건한 초기화, 카메라 멀티플렉싱, 그리고 이미지 포스터 스케일링 도입을 추진한다.
- AR/VR 및 재질 편집 애플리케이션을 위한 BRDF 텍스처가 있는 명시적 메쉬의 추출을 가능하게 한다.
제안 방법
- 신경-PIL/NeRF 스타일의 신경 볼륨을 기반으로 각 3D 위치에서 3D 형태와 BRDF를 이미지별 조명 임베딩과 함께 표현한다.
- 다양한 거리 처리를 위해 look-at 방식과 이미지별 초점거리로 구성된 유연하고 객체 중심적인 이미지별 카메라 파라미터화를 공동 최적화한다.
- 카메라 멀플렉싱 도입: 로컬 최소를 피하기 위해 동적 손실 재가중으로 이미지당 다수의 포즈를 최적화한다.
- 최적화 동안 노이즈가 있는 마스크나 이미지를 가중치를 낮추기 위해 입력 이미지의 포스터 스케일링을 사용한다.
- 거칠은-세밀한 손실 스케줄링, 푸리에 주파수 어닐링, 규제를 적용하여 BRDF 및 조명 추정을 안정화한다.
- 학습된 신경 볼륨으로부터 BRDF 텍스처가 있는 명시적 메쉬를 추출하여 후속 그래픽 사용에 활용한다.
실험 결과
연구 질문
- RQ1제약 없는 실제 세계 이미지 컬렉션에서 3D 형태, BRDF, 이미지별 조명 및 카메라 파라미터를 공동으로 추정할 수 있는가?
- RQ2포즈가 거칠거나 미상이고 마스크가 노이즈일 때 공동 최적화의 성능은 어떠한가?
- RQ3신경 볼륨 기반 재구성에서 단일 카메라 최적화에 비해 카메라 멀플렉싱 전략이 수렴성과 정확성을 향상시키는가?
- RQ4결과 모델이 AR/VR 애플리케이션에 적합한 재조명 및 메쉬 추출을 지원할 수 있는가?
주요 결과
- SAMURAI는 BARF-A 및 기준선과 비교하여 자연환경 데이터셋에서 새로운 시점 합성 및 재조명을 현저히 개선하며, 정확한 포즈 초기화 없이도 작동한다.
- 이미지별 조명, BRDF 파라미터 및 카메라 포즈를 공동으로 추정하여 완벽한 마스크나 포즈 없이도 재조명 가능한 3D 자산을 가능하게 한다.
- 동적 손실 재가중이 포함된 카메라 멀플렉싱은 로컬 최소를 벗어나고 도전적 데이터셋에서 최적화를 안정화하는 데 도움이 된다.
- 이미지 포스터 스케일링 및 강건한 최적화 일정이 재구성 품질을 향상시키고 노이즈가 있는 마스크와 이미지에 대한 강건성을 높인다.
- 학습된 신경 볼륨으로부터 BRDF가 포함된 명시적 메쉬 추출은 AR/VR 및 재질 편집용으로 활용 가능한 자산을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.