[論文レビュー] SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation
SwiftTailor は、パターンメイクとガーメントシーアーを組み合わせた二段階フレームワークで、新規の Garment Geometry Image を介して 3D ガーメントを生成し、パターンからメッシュまでのエンドツーエンド構築を物理ベースのシミュレーションなしで実現します。
Realistic and efficient 3D garment generation remains a longstanding challenge in computer vision and digital fashion. Existing methods typically rely on large vision- language models to produce serialized representations of 2D sewing patterns, which are then transformed into simulation-ready 3D meshes using garment modeling framework such as GarmentCode. Although these approaches yield high-quality results, they often suffer from slow inference times, ranging from 30 seconds to a minute. In this work, we introduce SwiftTailor, a novel two-stage framework that unifies sewing-pattern reasoning and geometry-based mesh synthesis through a compact geometry image representation. SwiftTailor comprises two lightweight modules: PatternMaker, an efficient vision-language model that predicts sewing patterns from diverse input modalities, and GarmentSewer, an efficient dense prediction transformer that converts these patterns into a novel Garment Geometry Image, encoding the 3D surface of all garment panels in a unified UV space. The final 3D mesh is reconstructed through an efficient inverse mapping process that incorporates remeshing and dynamic stitching algorithms to directly assemble the garment, thereby amortizing the cost of physical simulation. Extensive experiments on the Multimodal GarmentCodeData demonstrate that SwiftTailor achieves state-of-the-art accuracy and visual fidelity while significantly reducing inference time. This work offers a scalable, interpretable, and high-performance solution for next-generation 3D garment generation.
研究の動機と目的
- 産業ワークフローに整合した、効率的で解釈可能な3D ガーメント生成を動機づける。
- 物理ベースのシミュレーションを回避するコンパクトなエンドツーエンドの sewing-pattern から 3D メッシュへのパイプラインを導入する。
- 3D ガーメント表面の統一的な2D表現として Garment Geometry Image (GGI) を提案する。
- PatternMaker による縫製パターン推論と GarmentSewer によるパターンからのジオメトリ予測を開発する。
- GarmentCodeData ベンチマークで最先端の精度と推論時間の大幅な短縮を示す。
提案手法
- PatternMaker は、テキストまたは画像入力から縫製パターンを予測する軽量なマルチモーダル言語モデル。
- GarmentSewer は、セマンティックな縫製パターン情報を Garment Geometry Image (GGI) にマッピングする密集予測トランスフォーマー。
- GGI は、縫製パターンから再パックされたセマンティック、ジオメトリ、ステッチ要素を統一UV空間に結合する。
- 逆マッピングのポスト処理ステップ(リメッシュとステッチ)により、GGI から物理ベースの縫製を伴わずに最終的な3Dメッシュを再構築する。
- 訓練では回帰、ステッチ、法線正則化損失を用い、エッジ考慮ウェイトで境界を強調する。
実験結果
リサーチクエスチョン
- RQ1PatternMaker が、多モーダル入力から正確でトポロジー有効な縫製パターンを、より大きなLLMベースラインより効率的に生成できるか。
- RQ2GarmentSewer が、物理シミュレーションなしで正確な3Dガーメント再構築を可能にする、密度の高いジオメトリ画像を信頼性高く予測できるか。
- RQ3Garment Geometry Image (GGI) が、モーダル間・タスク間で2Dパターン推論と3Dメッシュ構築を効果的に橋渡しできるか。
- RQ4SwiftTailor は、精度・多様性・推論時間の点で GarmentCode ベースのパイプラインとどのように比較されるか。
主な発見
- PatternMaker は、より大きなベースラインのパラメータのわずか30%で、パターンの精度とトポロジー有効性を高く達成。
- SwiftTailor は、ガーメントメッシュ生成で最先端の MMD と COV を達成し、Stage 2 推論を高速化(0.02s)し、全体の推論時間を GarmentCode ベースのベースラインより約4倍高速化。
- GGI は、学習可能な GarmentSewer を介して縫製パターンから3Dメッシュへの変換を効率化し、初期状態の品質と安定性で物理ベースの GarmentCode を上回る。
- セマンティックUVマップは、GarmentSewer がトポロジーと縫い目の一貫性を保つために不可欠。
- アブレーションにより、エッジ認識回帰とステッチ損失が高品質な縫い目の揃えとジオメトリのために重要であることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。