Skip to main content
QUICK REVIEW

[논문 리뷰] DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

Shentong Mo, Enze Xie|arXiv (Cornell University)|2023. 07. 04.
3D Shape Modeling and Analysis인용 수 12
한 줄 요약

DiT-3D는 3D 포인트 클라우드 생성을 위해 복셀화된 포인트 클라우드를 디노이즈하는 순수 확산 트랜스포머를 도입하여, 매개변수 효율적인 2D-에서 3D 사전학습 및 3D 윈도우 어텐션으로 ShapeNet에서 최첨단 결과를 달성한다.

ABSTRACT

Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful effectiveness in generating high-quality 2D images. However, it is still being determined whether the Transformer architecture performs equally well in 3D shape generation, as previous 3D diffusion methods mostly adopted the U-Net architecture. To bridge this gap, we propose a novel Diffusion Transformer for 3D shape generation, namely DiT-3D, which can directly operate the denoising process on voxelized point clouds using plain Transformers. Compared to existing U-Net approaches, our DiT-3D is more scalable in model size and produces much higher quality generations. Specifically, the DiT-3D adopts the design philosophy of DiT but modifies it by incorporating 3D positional and patch embeddings to adaptively aggregate input from voxelized point clouds. To reduce the computational cost of self-attention in 3D shape generation, we incorporate 3D window attention into Transformer blocks, as the increased 3D token length resulting from the additional dimension of voxels can lead to high computation. Finally, linear and devoxelization layers are used to predict the denoised point clouds. In addition, our transformer architecture supports efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on the ShapeNet dataset demonstrate that the proposed DiT-3D achieves state-of-the-art performance in high-fidelity and diverse 3D point cloud generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy of the state-of-the-art method by 4.59 and increases the Coverage metric by 3.51 when evaluated on Chamfer Distance.

연구 동기 및 목표

  • 순수 확산 트랜스포머가 고충실도 3D 포인트 클라우드를 위한 U-Net 기반의 3D 생성 방법과 맞먹을 수 있는지에 대한 동기를 제시한다.
  • 복셀화된 포인트 클라우드에서 직접 작동하는 확산 트랜스포머를 개발하여 디노이징 기반의 3D 생성을 가능하도록 한다.
  • 3D 토큰 증가를 관리하기 위해 3D 위치/패치 임베딩, 3D 윈도우 어텐션 등 3D 특화 적응을 도입한다.
  • 2D ImageNet 사전학습에서 매개변수 효율적인 미세조정으로 교차 모달리티 전이(2D→3D) 및 도메인 전이(클래스 간)를 가능하게 하는 것을 시연한다.
  • ShapeNet에서 패치 크기, 복셀 크기 및 모델 크기에 따른 확장성과 ablation 연구를 보여준다.

제안 방법

  • U-Net을 복셀화된 포인트 클라우드에서의 3D 형태 생성에 대한 순수 확산 트랜스포머로 대체한다.
  • 포인트 클라우드를 복셀화하고, 3D 패치 임베딩 및 3D 사인-코사인 위치 임베딩을 사용하여 토큰을 형성한다.
  • 자체 어텐션 복잡도를 O(L^2)에서 O(L^2/R^3)으로 줄이기 위해 3D 윈도우 어텐션을 적용한다.
  • 트랜스포머 출력의 디보셀화를 통해 원래의 포인트 공간에서 디노이즈된 포인트 클라우드를 예측한다.
  • 매개변수 효율적 미세조정(DiffFit)을 활용해 2D ImageNet 사전학습된 DiT 가중치에서 초기화하고 모달리티 전이와 도메인 전이를 수행한다.
  • DDPM 목적어로 학습한다(예상된 노이즈에 대한 간단한 손실) 및 학습 가능한 클래스 임베딩을 통한 다중 클래스 컨디닝을 지원한다.

실험 결과

연구 질문

  • RQ1순수 확산 트랜스फ머가 3D 포인트 클라우드를 복셀화한 형태에서 고충실도 모양 생성을 위해 효과적으로 작동할 수 있는가?
  • RQ23D 확산 트랜스포머의 성능을 높이기 위해 필수적인 3D 특화 적응(위치/패치 임베딩, 윈도우 어텐션)은 무엇인가?
  • RQ32D ImageNet 사전학습이 3D 생성을 위한 이전 가능한 이점을 제공하는가, 그리고 매개변수 효율적 미세조정이 교차 모달리티 전이를 가능하게 하는가?
  • RQ4품질과 다양성을 유지하면서 다양한 복셀/패치/모델 크기로 DiT-3D 아키텍처의 확장성은 어느 정도인가?
  • RQ53D 설계 구성요소(복셀 확산, 3D 임베딩, 윈도우 어텐션)가 생성 효율성과 지표에 미치는 영향은?

주요 결과

  • DiT-3D는 ShapeNet에서 3D 포인트 클라우드 생성을 위한 이전의 비-DDPM 및 DDPM 베이스라인에 대해 최첨단 성능을 달성한다.
  • ablation에서 복셀 확산, 3D 위치 임베딩, 3D 윈도우 어텐션은 학습 비용을 줄이고 1-NNA 및 COV 지표를 개선한다.
  • DiffFit 스타일 미세조정으로 2D ImageNet 사전학습은 처음부터 학습하는 것보다 측정 가능한 이점을 제공하고 모달리티 전이를 위한 매개변수 대폭 감소를 가능하게 한다.
  • 도메인 전이 실험은 한 클래스(예: 의자)에서 학습하고 다른 클래스에서 겨우 0.09 MB만으로 미세조정해도 품질/다양성이 경쟁력이 있음을 보여준다.
  • 이 방법은 패치 크기, 복셀 크기, 모델 크기에 따라 확장되며, 더 작은 패치 크기(예: 2)와 더 큰 복셀 크기가 연구에서 더 나은 결과를 낳는다.
  • DiT-3D는 효율적인 미세조정 및 교차 도메인/ 모달리티 전송을 가능하게 하며 Chair, Airplane, Car에서 MeshDiffusion 및 LION을 여러 지표에서 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.