[论文解读] Text to 3D Scene Generation with Rich Lexical Grounding
本文提出一种数据驱动的方法,用于从非对齐的3D场景与自然语言描述语料中学习词汇定位,从而在无需人工标注映射的情况下提升场景保真度。通过在场景判别任务上训练分类器并提取高权重特征,该方法将多样化的词汇项定位到3D物体上,实现了自动化指标与人类判断之间的强相关性(r=0.70)。
The ability to map descriptions of scenes to 3D geometric representations has many applications in areas such as art, education, and robotics. However, prior work on the text to 3D scene generation task has used manually specified object categories and language that identifies them. We introduce a dataset of 3D scenes annotated with natural language descriptions and learn from this data how to ground textual descriptions to physical objects. Our method successfully grounds a variety of lexical terms to concrete referents, and we show quantitatively that our method improves 3D scene generation over previous work using purely rule-based methods. We evaluate the fidelity and plausibility of 3D scenes generated with our grounding approach through human judgments. To ease evaluation on this task, we also introduce an automated metric that strongly correlates with human judgments.
研究动机与目标
- 解决在不依赖手动整理映射关系的情况下,从自然语言描述生成可信3D场景的挑战。
- 从原始且未对齐的文本与3D场景数据中学习词汇定位,实现对如“L形房间”等术语到物理对象的自动映射。
- 通过结合学习到的定位与基于规则的系统,提升场景生成质量,超越单一方法的表现。
- 开发一种自动化指标(ASTS),其与人类判断在场景生成质量评估方面具有强相关性。
- 提供一个公开可用的数据集,包含1,129个3D场景和4,358条自然语言描述,以支持未来研究。
提出的方法
- 从人类参与者处收集1,129个3D场景和4,358条自然语言描述,每个场景由3–4名额外用户进行描述。
- 在场景判别任务上训练二分类器,以识别哪一3D场景与给定的文本描述匹配,使用来自物体类别和空间关系的特征。
- 从训练好的分类器中提取高权重特征,以识别对特定3D物体指代最具预测力的词汇项(例如,“桌子”、“L形”)。
- 将学习到的词汇定位与基于规则的场景生成流水线相结合,从输入描述生成最终的3D场景。
- 定义一种自动化场景模板相似度(ASTS)指标,通过模型ID和类别匹配计算生成场景模板与参考场景模板之间的对齐得分。
- 将ASTS用作人类评估的代理指标,证明其与人类判断之间具有强相关性(皮尔逊相关系数r=0.70,肯德尔等级相关系数τ=0.49)。
实验结果
研究问题
- RQ1能否直接从自然语言描述与3D场景的非对齐语料中学习3D场景生成的词汇定位,而无需人工词典或相似性特征?
- RQ2与纯规则方法相比,数据驱动的词汇定位在生成高保真3D场景方面表现如何?
- RQ3能否开发一种自动化指标,可靠地预测人类对3D场景质量与合理性的判断?
- RQ4将学习到的定位与基于规则的生成相结合,能在多大程度上提升场景生成性能,超越基线方法?
- RQ5所提出的方法在未在训练中显式标注的新词汇项和物体类别上是否具备泛化能力?
主要发现
- 结合学习到的词汇定位与基于规则的生成方法,获得了3.73分(满分7分)的人类判断得分,显著优于基于规则的基线(3.15分)和仅使用学习方法的方案(2.61分)。
- ASTS指标与人类判断之间表现出强皮尔逊相关性(r=0.70)和肯德尔等级相关性(τ=0.49),表明其在自动化评估中具有高度可靠性。
- 该方法成功将多样化的词汇项(如“L形房间”)定位到具体的3D物体上,证明其超越简单关键词匹配的泛化能力。
- 1,129个场景与4,358条描述的数据集揭示了物体选择与位置的显著差异,凸显了自然语言场景描述的复杂性。
- 错误案例多源于对空间关系的误读,表明若将空间约束纳入定位过程,性能有望进一步提升。
- 该方法可通过共现模式和Turker提供的描述实现对新物体类别的零样本泛化,从而减少对预标注类别的依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。