[论文解读] PARSE: Part-Aware Relational Spatial Modeling
PARSE 引入以部件为中心的表示 (PAG) 和求解器,通过建模对象间部件关系来构建物理上合理的二维/三维室内场景;并发布 PARSE-10K,具有密集的部件级注释,以提升空间推理和三维生成能力。
Inter-object relations underpin spatial intelligence, yet existing representations -- linguistic prepositions or object-level scene graphs -- are too coarse to specify which regions actually support, contain, or contact one another, leading to ambiguous and physically inconsistent layouts. To address these ambiguities, a part-level formulation is needed; therefore, we introduce PARSE, a framework that explicitly models how object parts interact to determine feasible and spatially grounded scene configurations. PARSE centers on the Part-centric Assembly Graph (PAG), which encodes geometric relations between specific object parts, and a Part-Aware Spatial Configuration Solver that converts these relations into geometric constraints to assemble collision-free, physically valid scenes. Using PARSE, we build PARSE-10K, a dataset of 10,000 3D indoor scenes constructed from real-image layout priors and a curated part-annotated shape database, each with dense contact structures and a part-level contact graph. With this structured, spatially grounded supervision, fine-tuning Qwen3-VL on PARSE-10K yields stronger object-level layout reasoning and more accurate part-level relation understanding; furthermore, leveraging PAGs as structural priors in 3D generation models leads to scenes with substantially improved physical realism and structural complexity. Together, these results show that PARSE significantly advances geometry-grounded spatial reasoning and supports the generation of physically consistent 3D scenes.
研究动机与目标
- 推动超越对象级关系的更精细空间推理框架,以确保物理一致的三维布局。
- 开发一个部件中心的组装图 (PAG),编码部件间的几何关系用于场景组装。
- 创建一个求解器,将部件级关系转化为几何约束以组装无碰撞场景。
- 构建 PARSE-10K:一个具有部件分割资产和密集部件级接触图的大型数据集,用于支持学习与评估。
- 证明 PAG 和 PARSE-10K 能提升基于 VLM 的空间推理与三维场景生成效果。
提出的方法
- 定义一个两级 PAG,包含通过部件级几何边和对象级边连接的对象节点与部件节点。
- 将部件间关系形式化为方向性介词(on、in、against)并标注部件/表面。
- 开发一个部件感知的空间配置求解器,在组装顺序下遍历 PAG,并应用粗到细的几何约束以采样无碰撞的姿态。
- 在支撑面上进行二维粗定位,然后强制部件级对齐约束,随后进行采样与碰撞检测。
- 用简短的物理仿真(Sapien)对最终场景进行润色,并生成一个部件级接触图。
- 通过获取真实图像布局先验、组装一个132类别的部件注释资产库,并渲染 10,000 个室内场景,具有密集的部件级接触。
实验结果
研究问题
- RQ1部件级关系如何增强空间推理并减少三维场景布局中的不确定性?
- RQ2部件中心图 (PAG) 能否有效约束姿态合成以产生物理上合理的场景?
- RQ3细粒度的部件级监督是否提升基于 VLM 的空间理解与场景生成质量?
- RQ4PAG 先验对生成的三维室内场景的真实感与复杂度有何影响?
主要发现
| 模型 | 视觉关系召回 | 部件级接触召回 | 场景图生成(有BBox/无BBox) | 场景图生成(召回/精度/F1) | 平均关系数 |
|---|---|---|---|---|---|
| GPT-5 | 82.1 | 75.2 | 13.7/40.9 | 13.9/41.3/13.8/41.1 | 15.3 |
| Gemini-2.5-Pro | 85.0 | 75.6 | 40.5/43.4 | 48.6/52.0/44.2/47.3 | 12.9 |
| Claude-Opus-4 | 80.3 | 73.2 | 8.0/33.7 | 12.7/53.7/9.8/41.4 | 9.7 |
| Robobrain2.0 | 60.8 | 37.2 | 9.2/11.3 | 26.7/32.8/13.7/16.9 | 5.6 |
| Qwen3-VL | 86.2 | 60.4 | 26.0/29.6 | 46.0/52.4/33.2/37.9 | 8.7 |
| Ours | 97.4 | 86.2 | 73.2/74.8 | 80.3/82.0/76.6/78.2 | 14.1 |
- 在 PARSE-10K 上对 Qwen3-VL 进行微调可提升对象级布局推理和部件级关系理解。
- 在三维生成中将 PAG 作为结构先验可获得更高物理真实感和结构复杂度的场景。
- PARSE-10K 能增强 VLM 的视觉定位和关系推理,并支持更可控、真实的场景生成。
- 基于 PARSE-10K 的模型在视觉关系、部件级接触与场景图生成任务上优于基线。
- 该数据集与框架在空间推理基准和三维生成质量方面均带来实质性提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。