QUICK REVIEW

[論文レビュー] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie|arXiv (Cornell University)|Mar 12, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

Hoi3DGenは、3D人間–物体相互作用の高品質なテキストキャプションを自動的にキュレーションし、視点条件付きのテキストツーイメージと3Dリフティングパイプラインを用いて、アニメーション可能なSMPLモデルを持つテクスチャ付き・意味論的に登録されたHOIメッシュを生成し、テキストの一貫性と3D品質のベースラインを上回る。

ABSTRACT

Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.

研究の動機と目的

AR/VRとゲーム向けのテキストからの faithful な3D HOI生成の必要性を動機づける。
マルチモーダルLLMを用いて3D HOIの高品質で詳細なテキストキャプションをキュレーションする。
接触意味論を保持するテキスト-to-画像および2D-to-3Dリフティングパイプラインを開発する。
アニメーション可能なSMPLモデルに対して3D HOIメッシュを意味論的に登録・セグメントする。
ベースラインよりもテキスト一貫性と3D品質で優れていることを示す。

提案手法

外部オープンソースのマルチモーダルLLMを用いて、外観・相互作用・最終キャプション生成に分解してキャプションを解決する自動データアノテーション。
前方/左/右対角のカメラ視点条件付きで、拡散モデル（SANAベース）を微調整して、 interaction image を生成する視点条件付き2D生成。
Fluxによるテクスチャ再テクスチャリングで3D出力のテクスチャ fidelity を向上。
高品質な2D画像からの3Dリフティングを通じて複数のテクスチャ付きHOIメッシュを取得する。
GSAM2（Grounded-Segment Anything 2）で3D HOIメッシュを人間部品と物体部品に分割・登録し、SMPLボディモデルを整 alignmentしてアニメーション可能で意味論的にラベル付けされたHOIを得る。

実験結果

リサーチクエスチョン

RQ1HOIデータの自動的で高品質なテキスト記述を生成し、それを用いて2D拡散モデルをファインチューニングして忠実なHOI画像を生成できるか。
RQ2視点条件付けとターゲットデータキュレーションが3D HOI生成の忠実度と接触意味論を向上させるか。
RQ33D HOIメッシュをSMPLと正確にセグメント・登録して意味論的に有意でアニメーション可能なモデルを得られるか。
RQ4提案手法はHOI生成のテキスト一貫性と3D品質においてベースラインを上回るか。

主な発見

Method	GPT (Text)↑	CLIP (Text)↑	Contact (Text)↑	User (Text)↑	GPT (3D)↑	User (3D)↑
TRELLIS	0.04	0.32	N/A	3.44%	0.21	10.16%
InterFusion	0.15	0.35	N/A	5.47%	0.00	3.28%
Hoi3DGen (Ours)	0.81	0.42	90%	91.09%	0.79	85.56%

Hoi3DGenは、ベースラインに対してテキスト-to-3Dの一貫性で4–15×の改善を達成。
Hoi3DGenは、3–7×の改善を3Dモデル品質で達成。
システムは入力プロンプトの接触を約90%の正確さで追従。
視点条件付きサンプリングは3つの2Dビューで3D接触忠実度を大幅に向上。
アブレーションにより、高品質な相互作用データと再テクスチャリングが性能に重要であることを示す。
ユーザ調査では、テキスト一貫性と3D品質の点でHoi3DGenをベースライン手法より強く支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。