[論文レビュー] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D
Hoi3DGenは、3D人間–物体相互作用の高品質なテキストキャプションを自動的にキュレーションし、視点条件付きのテキストツーイメージと3Dリフティングパイプラインを用いて、アニメーション可能なSMPLモデルを持つテクスチャ付き・意味論的に登録されたHOIメッシュを生成し、テキストの一貫性と3D品質のベースラインを上回る。
Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.
研究の動機と目的
- AR/VRとゲーム向けのテキストからの faithful な3D HOI生成の必要性を動機づける。
- マルチモーダルLLMを用いて3D HOIの高品質で詳細なテキストキャプションをキュレーションする。
- 接触意味論を保持するテキスト-to-画像および2D-to-3Dリフティングパイプラインを開発する。
- アニメーション可能なSMPLモデルに対して3D HOIメッシュを意味論的に登録・セグメントする。
- ベースラインよりもテキスト一貫性と3D品質で優れていることを示す。
提案手法
- 外部オープンソースのマルチモーダルLLMを用いて、外観・相互作用・最終キャプション生成に分解してキャプションを解決する自動データアノテーション。
- 前方/左/右対角のカメラ視点条件付きで、拡散モデル(SANAベース)を微調整して、 interaction image を生成する視点条件付き2D生成。
- Fluxによるテクスチャ再テクスチャリングで3D出力のテクスチャ fidelity を向上。
- 高品質な2D画像からの3Dリフティングを通じて複数のテクスチャ付きHOIメッシュを取得する。
- GSAM2(Grounded-Segment Anything 2)で3D HOIメッシュを人間部品と物体部品に分割・登録し、SMPLボディモデルを整 alignmentしてアニメーション可能で意味論的にラベル付けされたHOIを得る。
実験結果
リサーチクエスチョン
- RQ1HOIデータの自動的で高品質なテキスト記述を生成し、それを用いて2D拡散モデルをファインチューニングして忠実なHOI画像を生成できるか。
- RQ2視点条件付けとターゲットデータキュレーションが3D HOI生成の忠実度と接触意味論を向上させるか。
- RQ33D HOIメッシュをSMPLと正確にセグメント・登録して意味論的に有意でアニメーション可能なモデルを得られるか。
- RQ4提案手法はHOI生成のテキスト一貫性と3D品質においてベースラインを上回るか。
主な発見
| Method | GPT (Text)↑ | CLIP (Text)↑ | Contact (Text)↑ | User (Text)↑ | GPT (3D)↑ | User (3D)↑ |
|---|---|---|---|---|---|---|
| TRELLIS | 0.04 | 0.32 | N/A | 3.44% | 0.21 | 10.16% |
| InterFusion | 0.15 | 0.35 | N/A | 5.47% | 0.00 | 3.28% |
| Hoi3DGen (Ours) | 0.81 | 0.42 | 90% | 91.09% | 0.79 | 85.56% |
- Hoi3DGenは、ベースラインに対してテキスト-to-3Dの一貫性で4–15×の改善を達成。
- Hoi3DGenは、3–7×の改善を3Dモデル品質で達成。
- システムは入力プロンプトの接触を約90%の正確さで追従。
- 視点条件付きサンプリングは3つの2Dビューで3D接触忠実度を大幅に向上。
- アブレーションにより、高品質な相互作用データと再テクスチャリングが性能に重要であることを示す。
- ユーザ調査では、テキスト一貫性と3D品質の点でHoi3DGenをベースライン手法より強く支持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。