Skip to main content
QUICK REVIEW

[論文レビュー] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie|arXiv (Cornell University)|Mar 12, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

Hoi3DGenは、3D人間–物体相互作用の高品質なテキストキャプションを自動的にキュレーションし、視点条件付きのテキストツーイメージと3Dリフティングパイプラインを用いて、アニメーション可能なSMPLモデルを持つテクスチャ付き・意味論的に登録されたHOIメッシュを生成し、テキストの一貫性と3D品質のベースラインを上回る。

ABSTRACT

Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.

研究の動機と目的

  • AR/VRとゲーム向けのテキストからの faithful な3D HOI生成の必要性を動機づける。
  • マルチモーダルLLMを用いて3D HOIの高品質で詳細なテキストキャプションをキュレーションする。
  • 接触意味論を保持するテキスト-to-画像および2D-to-3Dリフティングパイプラインを開発する。
  • アニメーション可能なSMPLモデルに対して3D HOIメッシュを意味論的に登録・セグメントする。
  • ベースラインよりもテキスト一貫性と3D品質で優れていることを示す。

提案手法

  • 外部オープンソースのマルチモーダルLLMを用いて、外観・相互作用・最終キャプション生成に分解してキャプションを解決する自動データアノテーション。
  • 前方/左/右対角のカメラ視点条件付きで、拡散モデル(SANAベース)を微調整して、 interaction image を生成する視点条件付き2D生成。
  • Fluxによるテクスチャ再テクスチャリングで3D出力のテクスチャ fidelity を向上。
  • 高品質な2D画像からの3Dリフティングを通じて複数のテクスチャ付きHOIメッシュを取得する。
  • GSAM2(Grounded-Segment Anything 2)で3D HOIメッシュを人間部品と物体部品に分割・登録し、SMPLボディモデルを整 alignmentしてアニメーション可能で意味論的にラベル付けされたHOIを得る。

実験結果

リサーチクエスチョン

  • RQ1HOIデータの自動的で高品質なテキスト記述を生成し、それを用いて2D拡散モデルをファインチューニングして忠実なHOI画像を生成できるか。
  • RQ2視点条件付けとターゲットデータキュレーションが3D HOI生成の忠実度と接触意味論を向上させるか。
  • RQ33D HOIメッシュをSMPLと正確にセグメント・登録して意味論的に有意でアニメーション可能なモデルを得られるか。
  • RQ4提案手法はHOI生成のテキスト一貫性と3D品質においてベースラインを上回るか。

主な発見

MethodGPT (Text)↑CLIP (Text)↑Contact (Text)↑User (Text)↑GPT (3D)↑User (3D)↑
TRELLIS0.040.32N/A3.44%0.2110.16%
InterFusion0.150.35N/A5.47%0.003.28%
Hoi3DGen (Ours)0.810.4290%91.09%0.7985.56%
  • Hoi3DGenは、ベースラインに対してテキスト-to-3Dの一貫性で4–15×の改善を達成。
  • Hoi3DGenは、3–7×の改善を3Dモデル品質で達成。
  • システムは入力プロンプトの接触を約90%の正確さで追従。
  • 視点条件付きサンプリングは3つの2Dビューで3D接触忠実度を大幅に向上。
  • アブレーションにより、高品質な相互作用データと再テクスチャリングが性能に重要であることを示す。
  • ユーザ調査では、テキスト一貫性と3D品質の点でHoi3DGenをベースライン手法より強く支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。