QUICK REVIEW

[논문 리뷰] TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition

Yongwei Chen, Rui Chen|arXiv (Cornell University)|2022. 10. 20.

Generative Adversarial Networks and Image Synthesis인용 수 33

한 줄 요약

TANGO는 텍스트 프롬프트로 안내되는 주어진 맨손 3D 메쉬를 따라 SVBRDF, 노멀 변이, 및 조명을 학습하여 작업 특화 데이터 없이도 사진처럼 사실적인 스타일링을 생성합니다. CLIP 감독과 구형 가우시안(SG) 미분 가능한 렌더러를 사용해 스타일 파라미터를 렌더링하고 최적화합니다.

ABSTRACT

Creation of 3D content by stylization is a promising yet challenging problem in computer vision and graphics research. In this work, we focus on stylizing photorealistic appearance renderings of a given surface mesh of arbitrary topology. Motivated by the recent surge of cross-modal supervision of the Contrastive Language-Image Pre-training (CLIP) model, we propose TANGO, which transfers the appearance style of a given 3D shape according to a text prompt in a photorealistic manner. Technically, we propose to disentangle the appearance style as the spatially varying bidirectional reflectance distribution function, the local geometric variation, and the lighting condition, which are jointly optimized, via supervision of the CLIP loss, by a spherical Gaussians based differentiable renderer. As such, TANGO enables photorealistic 3D style transfer by automatically predicting reflectance effects even for bare, low-quality meshes, without training on a task-specific dataset. Extensive experiments show that TANGO outperforms existing methods of text-driven 3D style transfer in terms of photorealistic quality, consistency of 3D geometry, and robustness when stylizing low-quality meshes. Our codes and results are available at our project webpage https://cyw-3d.github.io/tango/.

연구 동기 및 목표

텍스트 프롬프트로 안내된 맨 바디 메시의 사진실사 3D 스타일화를 촉진한다.
스타일을 SVBRDF, 로컬 기하학(노멀 맵), 조명으로 분리한다.
작업 특화 데이터 없이 저해상도 메쉬에서도 견고한 스타일화를 가능하게 한다.
CLIP 손실을 활용해 미세하게 렌더링된Appearance 파라미터를 감독한다.

제안 방법

국소적으로 변하는 BRDF, 로컬 노멀 변 variation, 및 조명을 CLIP 가이던스에 의해 학습하여 스타일을 분리한다.
환경 조명과 BRDF를 표면 포인트별로 매개변수화된 신경망으로 표현한다.
구형 가우시안(diff differentiable) 렌더러를 사용해 이미지 형성을 계산하고 닫힌 형식의 적분을 가능하게 한다.
랜덤하게 샘플링된 카메라 포즈에서 이미지를 렌더링하고 CLIP로 인코딩하여 텍스트-이미지 유사도를 최대화하도록 파라미터를 최적화한다.
고주파 디테일과 기하를 포착하기 위해 노멀 오프셋 네트워크 및 위치 인코딩을 도입한다.

실험 결과

연구 질문

RQ1텍스트 프롬프트가 SVBRDF, 노멀 변 variation, 및 조명을 공동 학습하여 임의의 3D 메쉬의 사진실사 스타일화를 가이드할 수 있는가?
RQ2CLIP 감독이 다양한 품질의 메시에 걸쳐 렌더링된 스타일화가 텍스트 서술과 일치하도록 충분한가?
RQ3저품질 메쉬에서 TANGO는 기존 텍스트 구동 메쉬 스타일화 방법과 비교하여 어떤 성능을 보이는가?
RQ4외형 구성 요소를 분리하는 것이 렌더링 현실성과 기하학적 일관성에 어떤 영향을 미치는가?

주요 결과

방법	Q1 (전반)	Q2 (콘텐츠)	Q3 (스타일)
Text2Mesh	3.30 (±0.75)	3.53 (±0.79)	3.42 (±0.66)
Ours	4.02 (±0.77)	3.98 (±0.74)	3.94 (±0.75)

TANGO는 여러 프롬프트에서 Text2Mesh보다 더 높은 사진실사 렌더링 품질과 3D 일관성을 달성한다.
메시를 약 5,000 면으로 다운샘플링해도 스타일화 품질을 유지하며 강건함이 유지된다.
SVBRDF, 노멀 맵, 및 조명을 분리하면 사실적인 하이라이트, 음영 및 질감 변화가 가능하다.
고주파 디테일과 기하 변화를 위해 노멀 예측 및 SVBRDF/조명 예측이 결정적으로 기여한다.
추정 환경 맵과 재질 파라미터를 바꿈으로써 재조명(relighting) 및 재질 편집이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.