QUICK REVIEW

[논문 리뷰] Shap-E: Generating Conditional 3D Implicit Functions

Heewoo Jun, Alex Nichol|arXiv (Cornell University)|2023. 05. 03.

Generative Adversarial Networks and Image Synthesis인용 수 112

한 줄 요약

Shap-E는 3D 자산을 암시적 함수 매개변수로 인코딩하는 2단계 모델을 학습시키고, 조건부 확산 프라이어를 학습하여 텍스트 또는 이미지 조건에 따라 다양한 3D 자산을 생성하며 이는 NeRF로 렌더링되거나 텍스처가 적용된 메쉬로 렌더링될 수 있습니다. 이는 Point-E에 비해 수렴 속도가 빨라지고 샘플 품질이 경쟁력을 가지며 다중 표현 출력을 가능하게 합니다.

ABSTRACT

We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at https://github.com/openai/shap-e.

연구 동기 및 목표

암묵적 함수로 표현된 조건부 3D 자산의 생성을 촉진하십시오. 고정된 표현이 아니라.
3D 자산을 암시적 함수 매개변수로 매핑하는 확장 가능한 인코더-확산 프레임워크를 개발하십시오.
텍스트나 이미지에 조건부인 인코더 출력에 확산 프라이어를 학습시켜 텍스트 및 이미지 조건의 3D 생성을 가능하게 하십시오.
암시적 표현이 명시적 포인트 클라우드 기반의 기준보다 더 빠른 추론으로 비슷하거나 더 나은 샘플 품질을 달성할 수 있음을 보여주십시오.

제안 방법

밀집 3D 표현(포인트 클라우드 및 렌더링 뷰)을 암시적 함수 매개변수로 매핑하는 Transformer 기반 인코더를 학습시켜 NeRF와 STF를 모두 수행하는 MLP로 사용합니다.
NRF 렌더링 목표로 인코더를 선행 학습한 뒤, SDF와 텍스처 헤드를 확장하고 증류로 안정화한 다음 파인튜닝합니다.
텍스트나 이미지에 조건부인 인코더 출력(잠재 벡터)에 대해 분류기 없는 가이던스를 사용하여 샘플링 중에 확산 프라이어를 학습합니다.
MLP 가중치 행에 해당하는 잠재 벡터 시퀀스와 함께 고차원 암시적 표현을 가능하게 하는 잠재 확산을 사용합니다.
differentiable 렌더링과 marching cubes를 통해 NeRF 기반과 STF 기반 메시로 출력을 렌더링하고 STF 출력에 대한 엔드 투 엔드 파인튜닝을 수행합니다.
조건부에 대한 직접 x0 예측 및 가이던스 스케일을 통한 Point-E와 유사한 잠재 확산 학습 및 샘플링 전략을 채택합니다.

실험 결과

연구 질문

RQ1텍스트나 이미지로 조건부된 확산 모델이 암시적 함수로 인코딩된 다양하고 고품질의 3D 자산을 생성할 수 있는가?
RQ2잠재 확산 공간에서 암시적 MLP 가중치를 직접 예측하는 것이 포인트 클라우드와 같은 명시적 3D 표현에 비해 경쟁력 있는 결과를 얻는가?
RQ3Shap-E 접근 방식은 텍스트나 이미지로 조건화될 때 이전 3D 생성 모델(Point-E 등) 대비 속도와 샘플 품질 측면에서 어떻게 확장되는가?
RQ4통합된 암시적 표현 맥락에서 NeRF 렌더링과 STF(텍스처/메시) 렌더링 간의 트레이드오프는 무엇인가?

주요 결과

Method	ViT-B/32	ViT-L/14	Latency
DreamFields	78.6%	82.9%	~200 V100-hr
CLIP-Mesh	67.8%	74.5%	~17 V100-min
DreamFusion	75.1%	79.7%	~12 V100-hr
Point ⋅ E (300M, text-only)	33.6% ∗	35.5% ∗	25 V100-sec
Shap ⋅ E (300M, text-only)	37.8% ∗	40.9% ∗	13 V100-sec
Point ⋅ E (300M)	40.3%	45.6%	1.2 V100-min
Point ⋅ E (1B)	41.1%	46.8%	1.5 V100-min
Shap ⋅ E (300M)	41.1%	46.4%	1.0 V100-min
Conditioning images	69.6%	86.6%	-

Shap-E는 여러 지표에서 Point-E에 비해 더 빠른 수렴 속도와 동등하거나 우수한 샘플 품질을 달성합니다.
텍스트 조건이 적용된 Shap-E는 동등한 Point-E 모델에 비해 CLIP 기반 지표를 개선하지만, 후반 학습 단계에서 과적합이 관찰됩니다.
Shap-E는 동일한 암시적 함수 표현으로 NeRF 및 텍스처 메시에 대한 렌더링을 모두 가능하게 합니다.
대규모 데이터에서 Shap-E는 텍스트나 이미지 프롬프트에 조건화된 다채롭고 인식 가능한 3D 자산을 생성합니다.
추론 지연은 최적화 기반 3D 생성 방식보다 현저히 낮으며, 일부 이전 확산 기반 3D 방법보다 빠릅니다.
정성적 분석은 Shap-E와 Point-E 사이에서 이미지 조건 하의 공통된 성공/실패 패턴을 드러내지만 텍스트 조건에서 중요한 차이가 나타납니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.