Skip to main content
QUICK REVIEW

[논문 리뷰] Shap-E: Generating Conditional 3D Implicit Functions

Heewoo Jun, Alex Nichol|arXiv (Cornell University)|2023. 05. 03.
Generative Adversarial Networks and Image Synthesis인용 수 112
한 줄 요약

Shap-E는 3D 자산을 암시적 함수 매개변수로 인코딩하는 2단계 모델을 학습시키고, 조건부 확산 프라이어를 학습하여 텍스트 또는 이미지 조건에 따라 다양한 3D 자산을 생성하며 이는 NeRF로 렌더링되거나 텍스처가 적용된 메쉬로 렌더링될 수 있습니다. 이는 Point-E에 비해 수렴 속도가 빨라지고 샘플 품질이 경쟁력을 가지며 다중 표현 출력을 가능하게 합니다.

ABSTRACT

We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at https://github.com/openai/shap-e.

연구 동기 및 목표

  • 암묵적 함수로 표현된 조건부 3D 자산의 생성을 촉진하십시오. 고정된 표현이 아니라.
  • 3D 자산을 암시적 함수 매개변수로 매핑하는 확장 가능한 인코더-확산 프레임워크를 개발하십시오.
  • 텍스트나 이미지에 조건부인 인코더 출력에 확산 프라이어를 학습시켜 텍스트 및 이미지 조건의 3D 생성을 가능하게 하십시오.
  • 암시적 표현이 명시적 포인트 클라우드 기반의 기준보다 더 빠른 추론으로 비슷하거나 더 나은 샘플 품질을 달성할 수 있음을 보여주십시오.

제안 방법

  • 밀집 3D 표현(포인트 클라우드 및 렌더링 뷰)을 암시적 함수 매개변수로 매핑하는 Transformer 기반 인코더를 학습시켜 NeRF와 STF를 모두 수행하는 MLP로 사용합니다.
  • NRF 렌더링 목표로 인코더를 선행 학습한 뒤, SDF와 텍스처 헤드를 확장하고 증류로 안정화한 다음 파인튜닝합니다.
  • 텍스트나 이미지에 조건부인 인코더 출력(잠재 벡터)에 대해 분류기 없는 가이던스를 사용하여 샘플링 중에 확산 프라이어를 학습합니다.
  • MLP 가중치 행에 해당하는 잠재 벡터 시퀀스와 함께 고차원 암시적 표현을 가능하게 하는 잠재 확산을 사용합니다.
  • differentiable 렌더링과 marching cubes를 통해 NeRF 기반과 STF 기반 메시로 출력을 렌더링하고 STF 출력에 대한 엔드 투 엔드 파인튜닝을 수행합니다.
  • 조건부에 대한 직접 x0 예측 및 가이던스 스케일을 통한 Point-E와 유사한 잠재 확산 학습 및 샘플링 전략을 채택합니다.

실험 결과

연구 질문

  • RQ1텍스트나 이미지로 조건부된 확산 모델이 암시적 함수로 인코딩된 다양하고 고품질의 3D 자산을 생성할 수 있는가?
  • RQ2잠재 확산 공간에서 암시적 MLP 가중치를 직접 예측하는 것이 포인트 클라우드와 같은 명시적 3D 표현에 비해 경쟁력 있는 결과를 얻는가?
  • RQ3Shap-E 접근 방식은 텍스트나 이미지로 조건화될 때 이전 3D 생성 모델(Point-E 등) 대비 속도와 샘플 품질 측면에서 어떻게 확장되는가?
  • RQ4통합된 암시적 표현 맥락에서 NeRF 렌더링과 STF(텍스처/메시) 렌더링 간의 트레이드오프는 무엇인가?

주요 결과

MethodViT-B/32ViT-L/14Latency
DreamFields78.6%82.9%~200 V100-hr
CLIP-Mesh67.8%74.5%~17 V100-min
DreamFusion75.1%79.7%~12 V100-hr
Point ⋅ E (300M, text-only)33.6% ∗35.5% ∗25 V100-sec
Shap ⋅ E (300M, text-only)37.8% ∗40.9% ∗13 V100-sec
Point ⋅ E (300M)40.3%45.6%1.2 V100-min
Point ⋅ E (1B)41.1%46.8%1.5 V100-min
Shap ⋅ E (300M)41.1%46.4%1.0 V100-min
Conditioning images69.6%86.6%-
  • Shap-E는 여러 지표에서 Point-E에 비해 더 빠른 수렴 속도와 동등하거나 우수한 샘플 품질을 달성합니다.
  • 텍스트 조건이 적용된 Shap-E는 동등한 Point-E 모델에 비해 CLIP 기반 지표를 개선하지만, 후반 학습 단계에서 과적합이 관찰됩니다.
  • Shap-E는 동일한 암시적 함수 표현으로 NeRF 및 텍스처 메시에 대한 렌더링을 모두 가능하게 합니다.
  • 대규모 데이터에서 Shap-E는 텍스트나 이미지 프롬프트에 조건화된 다채롭고 인식 가능한 3D 자산을 생성합니다.
  • 추론 지연은 최적화 기반 3D 생성 방식보다 현저히 낮으며, 일부 이전 확산 기반 3D 방법보다 빠릅니다.
  • 정성적 분석은 Shap-E와 Point-E 사이에서 이미지 조건 하의 공통된 성공/실패 패턴을 드러내지만 텍스트 조건에서 중요한 차이가 나타납니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.