[論文レビュー] Text2Tex: Text-driven Texture Synthesis via Diffusion Models
Text2Texは深度認識拡散モデルを用いてテクスチャを段階的にインペイントし、動的生成マスクと自動的な視点選択によって複数の視点間の一貫性を確保しつつ、3Dメッシュのテクスチャを生成します。
We present Text2Tex, a novel method for generating high-quality textures for 3D meshes from the given text prompts. Our method incorporates inpainting into a pre-trained depth-aware image diffusion model to progressively synthesize high resolution partial textures from multiple viewpoints. To avoid accumulating inconsistent and stretched artifacts across views, we dynamically segment the rendered view into a generation mask, which represents the generation status of each visible texel. This partitioned view representation guides the depth-aware inpainting model to generate and update partial textures for the corresponding regions. Furthermore, we propose an automatic view sequence generation scheme to determine the next best view for updating the partial texture. Extensive experiments demonstrate that our method significantly outperforms the existing text-driven approaches and GAN-based methods.
研究の動機と目的
- 3Dメッシュの高品質テクスチャを自動的にテキスト誘導で生成することで、手動テクスチャ設計の労力を減らす。
- 複数の視点を段階的にテクスチャリングし、視点を跨いだ一貫性を確保する生成-→ refinement パイプラインを構築する。
- 視点によるアーチファクトを動的に生成/更新/保持/無視領域へ分割して拡張拡張拡散インペインティングを導く。
- テクスチャの refinement の次の最適な視点を自動的に選択する戦略を導入する。
- 最先端のテキスト駆動法およびGANベースのベースラインに対して、テクスチャの現実感と一貫性の優位性を示す。
提案手法
- レンダリング済みの各視点のテクスチャを事前学習済みの深度条件付き拡散モデルでインペイントする。
- New/Update/Keep/Ignore領域を分割する生成マスクを導入し、拡散強度と領域ごとのインペインティングを誘導する。
- 2D生成視点をUVマッピングと深度→画像条件付けを介してテクスチャ空間に再投影する。
- 曲面上の伸びArtifactsを抑制するため、表面法線に基づく動的な視点分割戦略を採用する。
- テクスチャ更新の領域を最大化することで、次の視点を選択する自動視点列を提案する。
- ObjaverseとShapeNetの車丼で、FID/KIDおよびユーザ調査を用いて、最先端のテキスト駆動法およびカテゴリ特化GANと比較評価する。
実験結果
リサーチクエスチョン
- RQ1深度認識拡散ベースのインペインティングは、3Dメッシュのテキストプロンプトに忠実な高忠実度テクスチャを生成できるか。
- RQ2動的な生成/更新/保持/無視の視点分割は、視点間のテクスチャの一貫性を改善するか。
- RQ3自動視点選択戦略は、手動の視点設計なしにテクスチャを効果的に refinement し、縫合を減らせるか。
- RQ4Text2Texは客観的指標とユーザー嗜好において、既存のテキスト駆動およびGANベースのテクスチャ合成法と比較してどうか。
主な発見
| Method | FID ↓ | KID (×10^-3) ↓ |
|---|---|---|
| Text2Mesh | 45.38 | 10.40 |
| CLIPMesh | 43.25 | 12.52 |
| Latent-Paint | 43.87 | 11.43 |
| Text2Tex (Ours) | 35.68 | 7.74 |
| Texture Fields | 177.15 | 17.14 |
| SPSG | 110.65 | 9.59 |
| LTG | 70.76 | 5.72 |
| Texturify | 59.55 | 4.97 |
| Text2Tex (Ours) | 46.91 | 4.35 |
- Text2Texは、ObjaverseでのFIDおよびKIDを低減し、ベースラインよりもテクスチャの現実感を大幅に向上させる(Table 1: Text2Tex FID 35.68, KID 7.74)。
- ShapeNetの車丼で、Text2TexはGANベースの手法を上回り、FID 46.91、KID 4.35を達成(Table 2)。
- ユーザー嗜好調査では、Text2TexがCLIPMeshおよびText2Meshをそれぞれ83.92%、76.47%で上回り、Latent-Paintを64.18%で上回った(Table 3)。
- アブレーション研究は、深度認識インペインティングと更新機構がアーチファクトを減らし、FID/KIDを改善することを確認(Table 4)。
- より多くの refinement 視点は品質をさらに向上させる(Table 5: FID 35.68、ビュー数20; KID 7.74)。
- Text2Texは大規模な3Dオブジェクトデータセットにおいて、客観的指標と人間の判断の両方で、テキスト駆動およびGANベースのベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。