QUICK REVIEW

[论文解读] Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors

Xi Wang, Gen Li|arXiv (Cornell University)|Jan 1, 2022

Multimodal Machine Learning Applications被引用 2

一句话总结

本文提出了一种基于常识知识先验的3D人体-物体交互动作条件化重建框架，该先验知识源自大规模语言模型（LLMs）提取，实现了从单张RGB图像进行多样化、无监督的3D交互建模，无需人工接触标注。该方法通过利用LLM衍生的接触先验和基于姿态的动作识别，实现了SOTA性能，显著提升了在不同物体类别和交互类型上的泛化能力。

ABSTRACT

We present a method for inferring diverse 3D models of human-object interactions from images. Reasoning about how humans interact with objects in complex scenes from a single 2D image is a challenging task given ambiguities arising from the loss of information through projection. In addition, modeling 3D interactions requires the generalization ability towards diverse object categories and interaction types. We propose an action-conditioned modeling of interactions that allows us to infer diverse 3D arrangements of humans and objects without supervision on contact regions or 3D scene geometry. Our method extracts high-level commonsense knowledge from large language models (such as GPT-3), and applies them to perform 3D reasoning of human-object interactions. Our key insight is priors extracted from large language models can help in reasoning about human-object contacts from textural prompts only. We quantitatively evaluate the inferred 3D models on a large human-object interaction dataset and show how our method leads to better 3D reconstructions. We further qualitatively evaluate the effectiveness of our method on real images and demonstrate its generalizability towards interaction types and object categories.

研究动机与目标

为解决从单张2D图像重建多样化3D人体-物体交互的挑战，传统方法依赖于昂贵的人工标注接触区域。
克服现有方法在可扩展性方面的局限，这些方法需要手工设计的接触规则或大规模带标注交互的3D数据集。
实现在无需每类物体或每类交互标注的前提下，跨多样化物体类别和交互类型的泛化。
探索利用来自LLMs的常识知识作为视觉中低层次3D推理任务先验的可行性。
开发基于检索的动作识别模块，从人体姿态中推断交互类型，以条件化3D重建。

提出的方法

该方法采用两阶段优化框架：首先独立估计人体和物体的形状与姿态，然后联合推理3D空间排列与接触关系。
通过基于姿态相似度的检索模块，从人体姿态中推断潜在的动作类型（如就坐、站立、倚靠），该结果用作LLM提示的条件。
通过精心设计的提示，从LLMs（如GPT-3）中提取关于人体-物体接触的常识知识，提供无需人工标注的部件级接触先验。
系统构建联合优化目标，整合LLM衍生的接触先验、接触损失（Lcontact）和法线方向约束（Lnormal），以优化3D排列。
通过ConceptNet对接触区域进行定位，当无LLM先验时，使用默认接触配置。
该流程利用现成的目标检测与姿态估计模型进行初始物体和人体状态估计，并通过优化进行细化。

实验结果

研究问题

RQ1来自大规模语言模型的常识知识是否能有效引导无人工接触标注的3D人体-物体交互推理？
RQ2动作条件化建模是否能提升从单张图像重建3D人体-物体交互的多样性与准确性？
RQ3LLM衍生的接触先验在新物体类别和交互类型上的泛化能力如何？
RQ4不同优化组件（如Lcontact、Lnormal）对最终重建质量的贡献如何？
RQ5基于姿态的动作识别是否能可靠地识别交互类型，以条件化LLM提示过程？

主要发现

所提方法在BEHAVE数据集上达到SOTA性能，相比基线方法在物体重建精度上实现显著提升。
消融实验表明，移除接触损失（Lcontact）会导致物体重建质量大幅下降，凸显其在优化中的关键作用。
法线方向损失（Lnormal）对整体性能贡献微乎其微，表明在此设置下接触点对齐比表面朝向更重要。
该方法能有效泛化至新的PartNet物体类别，成功重建如就坐、倚靠、站立于椅子等多样化交互。
用户研究结果表明，LLM衍生的先验与人工标注的接触预期基本一致，验证了其作为知识源的可靠性。
失败案例主要源于物体检测不佳、初始物体姿态错误或动作类型分类错误，表明对初始化和识别准确性的敏感性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。