[論文レビュー] DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces
DreamCAD は微分可能で C0 連続なベジエパッチを用いて大規模未注釈メッシュから学習するマルチモーダル CAD 生成フレームワークと、テキストから CAD へを支援する CADCap-1M の 1,000,001 件超の CAD キャプションデータセットを提供します。
Computer-Aided Design (CAD) relies on structured and editable geometric representations, yet existing generative methods are constrained by small annotated datasets with explicit design histories or boundary representation (BRep) labels. Meanwhile, millions of unannotated 3D meshes remain untapped, limiting progress in scalable CAD generation. To address this, we propose DreamCAD, a multi-modal generative framework that directly produces editable BReps from point-level supervision, without CAD-specific annotations. DreamCAD represents each BRep as a set of parametric patches (e.g., Bézier surfaces) and uses a differentiable tessellation method to generate meshes. This enables large-scale training on 3D datasets while reconstructing connected and editable surfaces. Furthermore, we introduce CADCap-1M, the largest CAD captioning dataset to date, with 1M+ descriptions generated using GPT-5 for advancing text-to-CAD research. DreamCAD achieves state-of-the-art performance on ABC and Objaverse benchmarks across text, image, and point modalities, improving geometric fidelity and surpassing 75% user preference. Code and dataset will be publicly available.
研究の動機と目的
- ジオメトリとトポロジを分離可能な微分可能パラメトリック表面によってスケールする、マルチモーダル CAD 生成。
- CAD 特有のラベルなしの大規模未注釈 3D メッシュからの学習を可能にする。
- STEP ファイルとしてエクスポート可能な編集可能な CAD 出力と、高品質な CAD キャプションデータセット(CADCap-1M)を提供。
- テキスト、画像、点条件付生成の強力な一般化を示す。
提案手法
- 学習可能な制御点とウェイトを持つ C0 連続の有理ベジエパッチとして形状を表現する。
- パッチをメッシュへ変換する微分可能なテセレーションを用い、点レベルの監督(Chamfer ロス)を実現する。
- 構造化潜在表現(SLAT)で疎ボクセルをエンコードし、VAE フレームワークを介してパラメトリックジオメトリへデコードする。
- 隣接パッチ間で境界点を共有し、共有境界上の変形/ウェイトを平均化することで C0 連続性を強制する。
- テキスト、画像、点入力に対してコース→ファインの条件生成パイプラインを採用し、Flow トランスフォーマーデコーダと flow-matching 目的を用いる。
- CADCap-1M を 1M 件超の CAD モデルの GPT-5 世代キャプションで作成し、テキストから CAD への学習を支援する。
- 最終的なベジエ曲面を STEP ファイルとして OpenCascade を用いてエクスポートし、編集可能な CAD ワークフローを提供する。

実験結果
リサーチクエスチョン
- RQ1微分可能なパッチベースの CAD 表現が、CAD 注釈なしでテキスト・画像・点クラウドからのマルチモーダル生成を拡張できるか。
- RQ2幾何を先に、トポロジーを後で回復する2段階の分離アプローチは、多様な CAD ジオメトリへの一般化を改善するか。
- RQ3大規模 CAD キャプション(CADCap-1M)は、信頼性の高いテキストから CAD 生成とプロンプト忠実度をどれだけ支援できるか。
主な発見
- DreamCAD は ABC および Objaverse データセット上で点から CAD、画像から CAD、テキストから CAD のタスクで最先端の性能を達成。
- 点から CAD 生成において強力なベースラインと比較して Chamfer 距離を最大で 70% 削減。
- ユーザー評価と GPT-5 ベースの評価により、テキスト・画像条件付 CAD 生成におけて DreamCAD が 75% を超える好評を獲得。
- DreamCAD はいくつかのタスクで無効な出力がゼロの比率を維持しており、堅牢な有効出力を示す。
- NURBS ベースのモデルを微調整してトポロジー回復を試みた結果、99.2% の有効 CAD 出力と非常に低い CD を達成し、生産対応 CAD 生成のための幾何学的基盤がトポロジー回復を支えることを示唆。
- メタデータ拡張 CADCap-1M キャプションは、評価内で高品質と忠実性を達成(ユーザー訂正キャプション 95.8%、GPT-5 訂正キャプション 98.31%) 。
![Figure 3 : DreamCAD Overview: (A). Sparse Transformer VAE takes as input mesh, generates active voxels $v_{i}$ with local features $f_{i}$ , from DINOv2 [ 46 ] embeddings, normal images, and SDF values and encodes it to generate structured latents $z_{i}$ . These are then decoded into parametric (ra](https://ar5iv.labs.arxiv.org/html/2603.05607/assets/x5.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。