Skip to main content
QUICK REVIEW

[논문 리뷰] DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mohammad Haziq Khan, Muhammad Usama|arXiv (Cornell University)|2026. 03. 05.
3D Shape Modeling and Analysis인용 수 0
한 줄 요약

DreamCAD는 대규모 비주석 메시에 대해 학습하기 위해 미분가능하고 C0-연속인 베지에 패치를 사용하는 다중모달 CAD 생성 프레임워크를 제시하며, 텍스트- CAD을 위한 1M+ CAD 자막 데이터셋(CADCap-1M)도 제공합니다.

ABSTRACT

Computer-Aided Design (CAD) relies on structured and editable geometric representations, yet existing generative methods are constrained by small annotated datasets with explicit design histories or boundary representation (BRep) labels. Meanwhile, millions of unannotated 3D meshes remain untapped, limiting progress in scalable CAD generation. To address this, we propose DreamCAD, a multi-modal generative framework that directly produces editable BReps from point-level supervision, without CAD-specific annotations. DreamCAD represents each BRep as a set of parametric patches (e.g., Bézier surfaces) and uses a differentiable tessellation method to generate meshes. This enables large-scale training on 3D datasets while reconstructing connected and editable surfaces. Furthermore, we introduce CADCap-1M, the largest CAD captioning dataset to date, with 1M+ descriptions generated using GPT-5 for advancing text-to-CAD research. DreamCAD achieves state-of-the-art performance on ABC and Objaverse benchmarks across text, image, and point modalities, improving geometric fidelity and surpassing 75% user preference. Code and dataset will be publicly available.

연구 동기 및 목표

  • 기하학과 토폴로지를 구분하여 differentiable parametric surfaces를 통해 다중모달 CAD 생성을 확장한다.
  • CAD-specific 라벨 없이 대규모 비주석 3D 메쉬에서 학습 가능하게 한다.
  • STEP 파일로 내보낼 수 있는 편집 가능한 CAD outputs 및 고품질 CAD 자막 데이터셋(CADCap-1M)을 제공한다.
  • 텍스트, 이미지, 포인트 조건 생성 전반에서 강력한 일반화를 입증한다.

제안 방법

  • 형상을 학습 가능한 제어점 및 가중치를 갖는 C0-연속 합리 베지에 패치로 표현한다.
  • 패치를 메시에로 변환하기 위한 미분가능한 테셀레이션으로 포인트 수준 감독(Chamfer 손실)을 수행한다.
  • 희소 복셀을 구조화된 잠재 벡터(SLAT)로 인코딩하고 VAE 프레임워크를 통해 매개변수 기하로 디코드한다.
  • 인접 패치 간 경계점을 공유하고 공유 경계에서 변형/가중치를 평균화하여 C0 연속성을 강제한다.
  • 텍스트, 이미지, 포인트 입력에 대해 흐름 변환기 디코더와 흐름 매칭 목표를 사용하는 거친-에서-세밀한 조건부 생성 파이프라인을 채택한다.
  • CADCap-1M을 1M+ CAD 모델에 대해 GPT-5-생성 자막으로 만들어 텍스트- CAD 학습을 지원한다.
  • OpenCascade를 사용하여 STEP 파일로 최종 베지에 표면을 내보내 편집 가능한 CAD 워크플로를 가능하게 한다.
Figure 2 : Bézier surface representation and differentiable tessellation.
Figure 2 : Bézier surface representation and differentiable tessellation.

실험 결과

연구 질문

  • RQ1미분가능하고 패치 기반의 CAD 표현이 포인트 감독으로 학습될 때 CAD 주석 없이 텍스트, 이미지, 포인트 클라우드에서 다중모달 생성을 확장할 수 있는가?
  • RQ2기하학 우선의 분리된 2단계 접근(기하학-세계는 먼저, 토폴로지 회복은 나중)은 다양한 CAD 기하학으로의 일반화를 개선하는가?
  • RQ3대규모 CAD 자막(CADCap-1M)이 텍스트- CAD 생성 및 프롬프트 충실도를 신뢰성 있게 지원하는가?

주요 결과

  • DreamCAD는 ABC 및 Objaverse 데이터셋에서 포인트-대- CAD, 이미지-대- CAD, 텍스트-대- CAD 작업에서 최첨단 성능을 달성한다.
  • 강력한 baselines에 비해 포인트-대- CAD 생성에서 Chamfer Distance를 최대 70% 감소시킨다.
  • 사용자 및 GPT-5 기반 평가에서 DreamCAD가 텍스트- 및 이미지-조건 CAD 생성에서 75%를 넘어서는 선호를 얻는다.
  • 여러 작업에서 제로 불완전성 비율을 유지하여 출력의 유효성이 견고함을 시사한다.
  • NURBS 기반 모델을 미세조정하여 토폴로지 회복을 시도한 결과 99.2%의 유효 CAD 출력과 매우 낮은 CD를 달성하여 기하학적 기반이 생산 준비가 된 CAD 생성을 위한 토폴로지 회복을 뒷받침한다.
  • 메타데이터-강화 CADCap-1M 자막은 평가에서 높은 품질과 충실도를 달성한다(사용자-수정 자막 95.8%; GPT-5-수정 자막 98.31%).
Figure 3 : DreamCAD Overview: (A). Sparse Transformer VAE takes as input mesh, generates active voxels $v_{i}$ with local features $f_{i}$ , from DINOv2 [ 46 ] embeddings, normal images, and SDF values and encodes it to generate structured latents $z_{i}$ . These are then decoded into parametric (ra
Figure 3 : DreamCAD Overview: (A). Sparse Transformer VAE takes as input mesh, generates active voxels $v_{i}$ with local features $f_{i}$ , from DINOv2 [ 46 ] embeddings, normal images, and SDF values and encodes it to generate structured latents $z_{i}$ . These are then decoded into parametric (ra

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.