Skip to main content
QUICK REVIEW

[論文レビュー] TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Hyeongjin Nam, Daniel Sungho Jung|arXiv (Cornell University)|Feb 23, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

TeHOR は相互作用のテキスト記述を活用して意味的整合性と外観 priors を導き、非接触推論を可能にし、最先端の結果を生み出すことにより、単一画像からテクスチャ付きの3D ヒトと物体を共同再構成します。

ABSTRACT

Joint reconstruction of 3D human and object from a single image is an active research area, with pivotal applications in robotics and digital content creation. Despite recent advances, existing approaches suffer from two fundamental limitations. First, their reconstructions rely heavily on physical contact information, which inherently cannot capture non-contact human-object interactions, such as gazing at or pointing toward an object. Second, the reconstruction process is primarily driven by local geometric proximity, neglecting the human and object appearances that provide global context crucial for understanding holistic interactions. To address these issues, we introduce TeHOR, a framework built upon two core designs. First, beyond contact information, our framework leverages text descriptions of human-object interactions to enforce semantic alignment between the 3D reconstruction and its textual cues, enabling reasoning over a wider spectrum of interactions, including non-contact cases. Second, we incorporate appearance cues of the 3D human and object into the alignment process to capture holistic contextual information, thereby ensuring visually plausible reconstructions. As a result, our framework produces accurate and semantically coherent reconstructions, achieving state-of-the-art performance.

研究の動機と目的

  • 物理的接触 cue を超えた堅牢な3Dヒト–物体再構成の動機づけ、視線や指さしなどの非接触相互作用への対応。
  • HOI 再構成におけるグローバルな文脈と視覚的妥当性を捉える全体的な外観手がかりの組み込み。
  • テキスト記述を利用して共同の3D再構成とテキスト条件付き外観を意味論的にガイド・制約。
  • AR/VRやロボティクスアプリケーションの現実的な資産となる人と物体のテクスチャ付き3Dメッシュ(Gaussian)を生成。

提案手法

  • 3D ヒトと物体を幾何学と外観属性を持つ一連の 3D Gaussian として表現。
  • 微分可能レンダラ(Mip-Splatting)を用いて Gaussian を 2D へ投影し最適化を実施。
  • Vision–Language モデル(例:GPT-4)を用いて画像から holistic および接触重視のテキストプロンプトを抽出。
  • 再構成損失、テキスト条件付き拡散 prior による外観損失、指定された接触領域の接触損失、衝突ペナルティを最小化することで幾何学とテクスチャを共同最適化。
  • レンダリング外観をテキスト記述と整合させるために、テキスト条件付き拡散 priors(例:StableDiffusion)からのガイダンスを複数ビューにわたって活用。

実験結果

リサーチクエスチョン

  • RQ1人–物体相互作用のテキスト記述は、接触 cue を超えた正確な3D再構成を導けるか?
  • RQ2拡散 priors による全体的な外観手がかりの統合はHOIシーンのテクスチャと空間整合性を改善するか?
  • RQ3共同最適化はビュー間で意味的に一貫し非接触を考慮した再構成を生み出せるか?
  • RQ4テクスチャ付き Gaussian はオープンボキャブラリ HOI 再構成におけるメッシュ表現より利点を持つか?
  • RQ5非接触シナリオにおけるテキスト指向最適化は接触ベース手法と比較してどのように機能するか?

主な発見

  • Open3DHOI および BEHAVE データセットで、接触・非接触の両シナリオで最先端の性能を達成。
  • 拡散 priors を用いたテキスト指向の外観監督は、CLIP や純幾何的手がかりのみのベースラインと比較してオブジェクトの Chamfer 距離と接触 F1 スコアを改善。
  • 外観 priors を持つ 3D Gaussian 表現は、再構成精度および最適化の有効性の点でメッシュベース表現より優れる。
  • 2D 背景とテキスト条件付けの含有により、より正確でグローバルに一貫した HOI 再構成を実現。
  • テキスト指向の共同最適化は、3D 再構成と説明文との意味的整合性を、接触のみの方法よりも向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。