[論文レビュー] DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation
DiT-3Dは、ボクセル化された点群をデノイズすることで3D点群生成を行うプレーンな拡散トランスフォーマーを導入し、パラメータ効率的な2D-to-3D事前学習と3Dウィンドウ注意機構によりShapeNetで最先端の結果を達成します。
Recent Diffusion Transformers (e.g., DiT) have demonstrated their powerful effectiveness in generating high-quality 2D images. However, it is still being determined whether the Transformer architecture performs equally well in 3D shape generation, as previous 3D diffusion methods mostly adopted the U-Net architecture. To bridge this gap, we propose a novel Diffusion Transformer for 3D shape generation, namely DiT-3D, which can directly operate the denoising process on voxelized point clouds using plain Transformers. Compared to existing U-Net approaches, our DiT-3D is more scalable in model size and produces much higher quality generations. Specifically, the DiT-3D adopts the design philosophy of DiT but modifies it by incorporating 3D positional and patch embeddings to adaptively aggregate input from voxelized point clouds. To reduce the computational cost of self-attention in 3D shape generation, we incorporate 3D window attention into Transformer blocks, as the increased 3D token length resulting from the additional dimension of voxels can lead to high computation. Finally, linear and devoxelization layers are used to predict the denoised point clouds. In addition, our transformer architecture supports efficient fine-tuning from 2D to 3D, where the pre-trained DiT-2D checkpoint on ImageNet can significantly improve DiT-3D on ShapeNet. Experimental results on the ShapeNet dataset demonstrate that the proposed DiT-3D achieves state-of-the-art performance in high-fidelity and diverse 3D point cloud generation. In particular, our DiT-3D decreases the 1-Nearest Neighbor Accuracy of the state-of-the-art method by 4.59 and increases the Coverage metric by 3.51 when evaluated on Chamfer Distance.
研究の動機と目的
- プレーンな拡散トランスフォーマーがU-Netベースの3D生成手法と同等の高忠実度3D点群を実現できるかを動機づける。
- 点群のボクセル化上で直接動作する拡散トランスフォーマーを開発し、デノイズベースの3D生成を可能にする。
- 3D特有の適応(3D位置/パッチ埋め込み、3Dウィンドウ注意)を組み込み、3Dトークンの増大を管理する。
- 2D ImageNet事前学習からのパラメータ効率的微調整(2D→3Dのモダリティ転送)とドメイン転送(クラス間転送)を実現する。
- ShapeNet上でパッチサイズ、ボクセルサイズ、モデルサイズの Ablation を通じてスケーラビリティを示す。
提案手法
- U-Netを3D形状生成のためのプレーンな拡散トランスフォーマーに置き換える。
- 点群のボクセル化、3Dパッチ埋め込み、3D正弦・余弦位置埋め込みを用いてトークンを形成する。
- 自己注意の計算量を O(L^2) から O(L^2/R^3) に削減するために3Dウィンドウ注意を適用する。
- トランスフォーマー出力をデボクセル化して元の点空間のデノイズ済み点群を予測する。
- パラメータ効率的微調整(DiffFit)を活用して2D ImageNet事前学習済みDiT weightsからモダリティ転送を初期化し、ドメイン転送(クラス間転送)を実施する。
- DDPM目的関数(予測ノイズに対する単純な損失)で訓練し、学習可能なクラス埋め込みを介して多クラス条件付けをサポートする。
実験結果
リサーチクエスチョン
- RQ1プレーンな拡散トランスフォーマーは、ボクセル化された3D点群上で高忠実度の形状生成を効果的に実現できるか。
- RQ23D拡散トランスフォーマーが良い性能を発揮するために必要な3D特有の適応(位置/パッチ埋め込み、ウィンドウ注意)は何か。
- RQ32D ImageNet事前学習は3D生成に転用可能な利点を提供するか、パラメータ効率的微調整はモダリティ転送を可能にするか。
- RQ4DiT-3Dのアーキテクチャは異なるボクセル/パッチ/モデルサイズに対して品質と多様性を維持しつつどれだけスケーリングできるか。
- RQ53D設計要素(ボクセル拡散、3D埋め込み、ウィンドウ注意)が生成効率と評価指標に与える影響はどれほどか。
主な発見
- DiT-3DはShapeNetにおいて、3D点群生成の従来の非DDPMおよびDDPMベースのベースラインに対して最先端の性能を達成する。
- アブレーション実験では、ボクセル拡散、3D位置埋め込み、および3Dウィンドウ注意が訓練コストを低減し、1-NNAとCOV指標を改善する。
- DiffFit様の微調整を伴う2D ImageNet事前学習は、ゼロからの訓練より測定可能な利点を提供し、モダリティ転送のためのパラメータ削減を実現する。
- ドメイン転送実験では、ひとつのクラス(例:椅子)で訓練し、他のクラスで0.09 MBのみの微調整で競争力のある品質/多様性を得られる。
- パッチサイズ、ボクセルサイズ、およびモデルサイズとともにスケールし、研究では小さなパッチサイズ(例:2)と大きなボクセルサイズがより良好な結果を生む。
- DiT-3Dは効率的な微調整とクロスドメイン/モダリティ転送を可能にし、Chair、Airplane、Car のいくつかの指標で MeshDiffusion および LION を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。