QUICK REVIEW

[논문 리뷰] StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation

Roy Or-El, Xuan Luo|arXiv (Cornell University)|2021. 12. 21.

Advanced Vision and Imaging인용 수 49

한 줄 요약

StyleSDF는 SDF 기반 3D 볼륨 렌더러와 2D StyleGAN2 생성기를 결합하여 단일 시점 RGB 데이터에서 1024x1024 뷰 일관성 이미지와 상세 기하를 생성합니다. 다중 뷰 감독 없이도 고해상도 출력과 향상된 3D 일관성을 달성합니다.

ABSTRACT

We introduce a high resolution, 3D-consistent image and shape generation technique which we call StyleSDF. Our method is trained on single-view RGB data only, and stands on the shoulders of StyleGAN2 for image generation, while solving two main challenges in 3D-aware GANs: 1) high-resolution, view-consistent generation of the RGB images, and 2) detailed 3D shape. We achieve this by merging a SDF-based 3D representation with a style-based 2D generator. Our 3D implicit network renders low-resolution feature maps, from which the style-based network generates view-consistent, 1024x1024 images. Notably, our SDF-based 3D modeling defines detailed 3D surfaces, leading to consistent volume rendering. Our method shows higher quality results compared to state of the art in terms of visual and geometric quality.

연구 동기 및 목표

단일 시점 RGB 데이터에서 고해상도, 3D 일관 이미지 및 기하 생성을 시연한다.
명시적 3D 기하 및 뷰 일관 피처를 제공하기 위해 SDF 기반 볼륨 렌더러를 활용한다.
저해상도 3D 피처를 2D StyleGAN2 생성기와 융합하여 1024x1024 출력을 달성한다.

제안 방법

저해상도 피처 맵을 모델링하기 위해 Signed Distance Fields(SDF) 및 복사광(방사) 필드를 모델링하는 좌표 기반 MLP를 사용한다.
SDF 유도 밀도와 학습된 알파 매개변수에 의해 안내되는 볼륨 렌더링을 통해 64x64 피처 맵과 RGB 이미지를 얻는다.
저해상도 피처를 잘라낸 StyleGAN2 생성기(64x64 초기 스테이지)에 입력하여 고해상도 1024x1024 이미지를 생성한다.
유효한 SDF 기하 및 뷰 일관성을 강제하기 위한 적대적 손실(adversarial loss)과 아이컬론 손실(Eikonal loss)로 학습하고, 생성된 객체의 전역 정렬을 돕는 포즈 정렬 손실을 포함한다.

실험 결과

연구 질문

RQ1단일 뷰에서 학습된 네트워크가 시점 간 3D 일관된 고해상도 RGB 이미지를 생성할 수 있는가?
RQ2SDF 기반 볼륨 렌더러를 StyleGAN2 생성기와 연결하는 것이 이전의 3D 인식 GAN과 비교해 더 우수한 기하학 및 질감을 제공하는가?
RQ3시점 의존 색칠이 추론 시 학습 안정성 및 뷰 일관성에 어떤 영향을 미치는가?
RQ4제안된 샘플링 전략이 렌더링 품질 및 학습 효율성에 미치는 영향은 무엇인가?
RQ5StyleSDF가 FFHQ와 AFHQ에서 이미지 품질 및 깊이/기하 일관성 측면에서 어떤 성능을 보이는가?

주요 결과

Dataset	HoloGAN FID	HoloGAN KID	GRAF FID	GRAF KID	PiGAN FID	PiGAN KID	GIRAFFE FID	GIRAFFE KID	Ours FID	Ours KID
FFHQ	90.9	75.5	79.2	55.0	83.0	85.8	31.2	20.1	11.5	2.65
AFHQ	95.6	77.5	129.5	85.1	52.4	30.7	33.5	15.1	12.8	4.47

StyleSDF는 최첨단 3D 인식 GAN 대비 깊이 및 기하 품질이 향상된 1024x1024 뷰 일관 이미지를 달성한다.
FFHQ 및 AFHQ에서 StyleSDF는 기반 모델(HoloGAN, GRAF, PiGAN, GIRAFFE) 대비 우수한 FID/KID 점수를 달성한다.
정면 및 측면 뷰 간 깊이 일관성이 PiGAN 대비 StyleSDF에서 크게 개선되어 뷰 일관 기하가 더 강하다는 것을 보여준다.
볼륨 렌더러 우선의 두 단계 학습은 최적화를 안정시키고 뷰 간 정체성 및 구조를 보존한다.
이 방법은 학습된 SDF 표면으로부터 마칭 큐브를 이용한 고품질 3D 메쉬를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.