QUICK REVIEW

[論文レビュー] Query2CAD: Generating CAD models using natural language queries

Akshay Badagabettu, Sai Sravan Yarlagadda|arXiv (Cornell University)|May 31, 2024

Manufacturing Process and Optimization被引用数 7

ひとこと要約

Query2CAD は自然言語プロンプトから実行可能な FreeCAD マクロを生成する大規模言語モデルを用い、VQA フィードバックと任意の人間入力による自己改良ループを経て、初回成功率は GPT-4 Turbo で 53.6%、改良後に 23.1% 向上します。

ABSTRACT

Computer Aided Design (CAD) engineers typically do not achieve their best prototypes in a single attempt. Instead, they iterate and refine their designs to achieve an optimal solution through multiple revisions. This traditional approach, though effective, is time-consuming and relies heavily on the expertise of skilled engineers. To address these challenges, we introduce Query2CAD, a novel framework to generate CAD designs. The framework uses a large language model to generate executable CAD macros. Additionally, Query2CAD refines the generation of the CAD model with the help of its self-refinement loops. Query2CAD operates without supervised data or additional training, using the LLM as both a generator and a refiner. The refiner leverages feedback generated by the BLIP2 model, and to address false negatives, we have incorporated human-in-the-loop feedback into our system. Additionally, we have developed a dataset that encompasses most operations used in CAD model designing and have evaluated our framework using this dataset. Our findings reveal that when we used GPT-4 Turbo as our language model, the architecture achieved a success rate of 53.6\% on the first attempt. With subsequent refinements, the success rate increased by 23.1\%. In particular, the most significant improvement in the success rate was observed with the first iteration of the refinement. With subsequent refinements, the accuracy of the correct designs did not improve significantly. We have open-sourced our data, model, and code (github.com/akshay140601/Query2CAD).

研究の動機と目的

CAD プロトタイピング時間を短縮し、非専門家が自然言語プロンプトから CAD 設計を生成できるようにする。
プロンプトを実行可能な FreeCAD マクロへ変換するワークフローを開発する。
視覚的フィードバックを用いた自己改良ループを導入し、CAD 出力を改善する。
偽陰性を解消し堅牢性を高めるために人間のフィードバックをループに組み込む。
アプローチを再現・拡張するためのオープンなデータセット、モデル、コードを提供する。

提案手法

LLM がユーザーのプロンプトから FreeCAD 用の Python マクロを生成し、3D CAD モデルを作成する。
エラー反復ループはエラーメッセージを用いて実行可能なコードを指定回数まで逐次修正する。
モデル改良ループは Clip-FlanT5-XL の VQAscore を用いて等角投影ビューをプロンプトと比較し、キャプションベースのフィードバックをトリガーする。
BLIP2 は設計を説明するキャプションを生成し、人間のフィードバックと合わせて改良を指導する。
PyAutoGUI は FreeCAD マクロの実行ワークフローを自動化する。
全 LLM 呼び出しには少数ショットプロンプティングを使用し、プロセスは最大3回の改良を許容する。

実験結果

リサーチクエスチョン

RQ1自然言語プロンプトから実行可能な CAD マクロを生成し、FreeCAD モデルを正しく作成できるか？
RQ2エラー駆動およびモデル駆動の反復改良ループは、直接生成と比較して CAD 設計精度を改善するか？
RQ3VQA ベースのスコアリングは設計精度と相関し、停止基準を決定するか？
RQ4初期の成功と改良の獲得において、モデル選択（GPT-3.5 Turbo 対 GPT-4 Turbo）の影響は？
RQ5言語からの完全自律 CAD 生成における制約と失敗モードは何か？

主な発見

Model	易しい	中級	難
GPT-3.5 Turbo	85.71%	35%	37.5%
GPT-4 Turbo	95.23%	70%	41.7%

初回の成功率は LLM に依存する；GPT-4 Turbo は容易な質問で直接生成時に 53.6% を達成。
改良によってデータセット全体で精度が平均 23.1% 向上し、最初の改良が最大のゲインを生み出す。
易しい質問は GPT-4 Turbo で最大 95.23% の精度、中等と難問はそれぞれ 70%、41.7% に達する。
GPT-3.5 Turbo は易しい 85.71%、中程度 35%、難問 37.5% の精度を達成し、改良により結果は同様に改善。
より弱いモデル（例：Codellama-70B）は誤情報や推論の不整合を示し、性能は低い。
BLIP2 のキャプションだけでは、人間のフィードバックと組み合わせた場合ほど改良効果が高くない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。