[論文レビュー] Semi-supervised Latent Disentangled Diffusion Model for Textile Pattern Generation
SLDDM-TPG は潜在的に分離されたネットワーク(LDN)と半教師付き潜在拡散モデル(S-LDM)を組み合わせた二段階フレームワークを提示し、衣服画像から faithful な textile pattern 画像を生成、高解像度データセットで高忠実度と良好な一般化を達成する。
Textile pattern generation (TPG) aims to synthesize fine-grained textile pattern images based on given clothing images. Although previous studies have not explicitly investigated TPG, existing image-to-image models appear to be natural candidates for this task. However, when applied directly, these methods often produce unfaithful results, failing to preserve fine-grained details due to feature confusion between complex textile patterns and the inherent non-rigid texture distortions in clothing images. In this paper, we propose a novel method, SLDDM-TPG, for faithful and high-fidelity TPG. Our method consists of two stages: (1) a latent disentangled network (LDN) that resolves feature confusion in clothing representations and constructs a multi-dimensional, independent clothing feature space; and (2) a semi-supervised latent diffusion model (S-LDM), which receives guidance signals from LDN and generates faithful results through semi-supervised diffusion training, combined with our designed fine-grained alignment strategy. Extensive evaluations show that SLDDM-TPG reduces FID by 4.1 and improves SSIM by up to 0.116 on our CTP-HD dataset, and also demonstrate good generalization on the VITON-HD dataset.
研究の動機と目的
- 衣服画像から textile pattern を生成する際の特徴混同の課題に対処する。
- 衣服表現を content(内容)・structure(構造)・defect(欠陥)特徴へ分離し忠実度を向上させる。
- 半教師付き拡散学習を活用してラベルなしデータを利用し一般化を改善する。
- TPG のための高解像度対ありデータセット(CTP-HD)を導入する。
- パターン生成を精練するための整列および局所的な類似性メカニズムを提案する。
提案手法
- 二段階フレームワーク:潜在的に分離されたネットワーク(LDN)に続き半教師付き潜在拡散モデル(S-LDM)。
- LDN は複数の特徴空間を学習する: textiles pattern content (f_S^c), テクスチャ欠陥 (f_T^c), 構造特徴 (f_A^c) を SCM、RAM、SATs を用いて学習。
- SCM は SimSiam ベースの類似性対比を用いて衣服 C とパターン P の共有内容 f_S^c を抽出。
- RAM は逆注意と SATs を用いて安定した構造特徴を生み出し、テクスチャ三重項損失で分離を強制。
- S-LDM はラベル付きデータを用いたデノイジング生成を行い、STD 搭載の整列プロセスと CLS モジュールで未ラベルデータを活用。
- 整列損失には STD(安定変換ドメイン)、CLS(畳み込み局所類似性)、LPIPS、MSE を半教師付きフレームワーク内で含む。
実験結果
リサーチクエスチョン
- RQ1衣服特有の特徴混乱は content、structure、defect の要素に分離することで軽減できるか。
- RQ2 alignment シグナルを伴う半教師付き潜在拡散は忠実度と頑健性を向上させるか。
- RQ3提案された STD と CLS モジュールがパターン忠実度と局所周期性に与える影響は何か。
- RQ4SLDDM-TPG は高解像度データセットや未知の衣服への一般化性能をどの程度持つか。
- RQ5新たに導入された CTP-HD データセットは既存ベースラインを上回る改善をもたらすか。
主な発見
- SLDDM-TPG は CTP-HD でベースラインより低い FID と高い SSIM を達成。
- CTP-HD では SLDDM-TPG が最良のベースラインと比較して FID を 4.10 減少させ、SSIM を 0.116 増加させ、FPS を 0.875 に達成。
- VITON-HD での一般化において、SLDDM-TPG は比較対象より LPIPS(VLS)および CTS スコアが改善。
- LDN コンポーネントを削除すると特に textile pattern content feature f_S^c の性能低下を招く等、アブレーションで影響を確認。
- CLS および STD コンポーネントは局所的な類似性と整列安定性を改善し、忠実度を高める。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。