Skip to main content
QUICK REVIEW

[논문 리뷰] SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design

Ruogu Li, Sikai Li|arXiv (Cornell University)|2026. 03. 13.
3D Shape Modeling and Analysis인용 수 0
한 줄 요약

SldprtNet은 aligned 3D 모델, 다중 뷰 이미지, 매개변수 스크립트 및 자연어 설명과 함께 대규모 다중모달 CAD 데이터셋(부품 242k)을 소개하고, 손실 없는 텍스트-CAD 변환과 언어 주도 CAD 생성을 가능하게 하는 인코더/디코더 도구를 제공합니다.

ABSTRACT

We introduce SldprtNet, a large-scale dataset comprising over 242,000 industrial parts, designed for semantic-driven CAD modeling, geometric deep learning, and the training and fine-tuning of multimodal models for 3D design. The dataset provides 3D models in both .step and .sldprt formats to support diverse training and testing. To enable parametric modeling and facilitate dataset scalability, we developed supporting tools, an encoder and a decoder, which support 13 types of CAD commands and enable lossless transformation between 3D models and a structured text representation. Additionally, each sample is paired with a composite image created by merging seven rendered views from different viewpoints of the 3D model, effectively reducing input token length and accelerating inference. By combining this image with the parameterized text output from the encoder, we employ the lightweight multimodal language model Qwen2.5-VL-7B to generate a natural language description of each part's appearance and functionality. To ensure accuracy, we manually verified and aligned the generated descriptions, rendered images, and 3D models. These descriptions, along with the parameterized modeling scripts, rendered images, and 3D model files, are fully aligned to construct SldprtNet. To assess its effectiveness, we fine-tuned baseline models on a dataset subset, comparing image-plus-text inputs with text-only inputs. Results confirm the necessity and value of multimodal datasets for CAD generation. It features carefully selected real-world industrial parts, supporting tools for scalable dataset expansion, diverse modalities, and ensured diversity in model complexity and geometric features, making it a comprehensive multimodal dataset built for semantic-driven CAD modeling and cross-modal learning.

연구 동기 및 목표

  • 대규모 CAD 데이터셋을 구축하여 시맨틱 주도 모델링 및 다중모달 학습을 지원합니다.
  • CAD 모델과 텍스트 간 변환을 위한 매개변수 표현 및 도구를 제공합니다.
  • 기하학, 뷰, 스크립트 및 설명을 정렬하여 양방향 모델링 및 평가를 가능하게 합니다.
  • 텍스트-대- CAD 작업에 대한 다중모달 감독의 효과를 보여줍니다.

제안 방법

  • 공개 저장소에서 sldprt 및 step 형식의 242k개의 산업용 CAD 파트를 수집합니다.
  • 모델당 7개의 뷰를 렌더링하고 이를 하나의 이미지로 구성하여 입력 토큰을 줄입니다.
  • sldprt를 구조적 매개변수 텍스트로 변환하는 인코더(Encoder_txt)를 개발합니다.
  • Encoder_txt에서 sldprt를 재구성하는 디코더를 개발하여 손실 없는 양방향 변환을 가능하게 합니다.
  • 다중모달 LLM(Qwen2.5-VL-7B)을 사용하여 합성 이미지와 Encoder_txt에서 Des_txt 설명을 생성합니다.
  • 데이터셋 정확성을 보장하기 위해 Des_txt, 이미지 및 3D 모델 간의 정렬을 수동으로 검증합니다.

실험 결과

연구 질문

  • RQ1대규모 다중모달 CAD 데이터셋이 언어 유도 CAD 생성 및 교차 모달 이해를 향상시킬 수 있나요?
  • RQ2텍스트만 CAD 모델링에 비해 이미지 모달리티를 추가하면 실제 명령 및 기하학과의 정렬이 개선되나요?
  • RQ3양방향 매개변수 CAD 변환을 위한 인코더/디코더 파이프라인은 얼마나 효과적입니까?
  • RQ4실세계 산업 CAD 코퍼스에서 CAD 기능 유형 분포와 모델 복잡도는 어떻게 되나요?

주요 결과

  • 다중모달 학습(이미지 + Encoder_txt)이 텍스트만 모델보다 Exact Match, Command-Level F1 및 Partial Match 지표에서 더 나은 성능을 보였습니다.
  • Exact Match Score: 0.0099 (VL) vs 0.0058 (텍스트 단독).
  • Command-Level F1: 0.3670 (VL) vs 0.3247 (텍스트 단독).
  • Partial Match Rate: 0.6162 (VL) vs 0.5554 (텍스트 단독).
  • 6뷰 합성 이미지와 1개의 등축 뷰가 기하를 손실 없이 입력 길이를 줄여줍니다.
  • 데이터셋은 242,606개의 샘플과 13개의 핵심 CAD 기능, 그리고 Simple에서 Expert까지의 네 계층 복잡도 분포를 담고 있습니다.
  • 기준 결과는 텍스트-대- CAD 작업에 대한 다중모달 감독의 가치를 입증합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.