[论文解读] VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D ARTiculated Objects
VAT-Mart 学习每点的动作可行性和多样的视觉动作轨迹提案,用于操作3D关节对象,从而实现一个交互-感知框架,该框架联合训练强化学习与感知网络,以实现对新形状和真实数据的泛化。
Perceiving and manipulating 3D articulated objects (e.g., cabinets, doors) in human environments is an important yet challenging task for future home-assistant robots. The space of 3D articulated objects is exceptionally rich in their myriad semantic categories, diverse shape geometry, and complicated part functionality. Previous works mostly abstract kinematic structure with estimated joint parameters and part poses as the visual representations for manipulating 3D articulated objects. In this paper, we propose object-centric actionable visual priors as a novel perception-interaction handshaking point that the perception system outputs more actionable guidance than kinematic structure estimation, by predicting dense geometry-aware, interaction-aware, and task-aware visual action affordance and trajectory proposals. We design an interaction-for-perception framework VAT-Mart to learn such actionable visual representations by simultaneously training a curiosity-driven reinforcement learning policy exploring diverse interaction trajectories and a perception module summarizing and generalizing the explored knowledge for pointwise predictions among diverse shapes. Experiments prove the effectiveness of the proposed approach using the large-scale PartNet-Mobility dataset in SAPIEN environment and show promising generalization capabilities to novel test shapes, unseen object categories, and real-world data. Project page: https://hyperplane-lab.github.io/vat-mart
研究动机与目标
- 通过超越标准运动学表示来激发在现实环境中对3D关节对象(如橱柜、门)的鲁棒操控研究。
- 提出面向对象的可操作视觉先验,预测在对象的每个点上应在何处互动以及如何互动。
- 开发一个交互-感知框架(VAT-Mart),联合学习探索驱动的轨迹并将其总结为可推广的先验。
- 利用 PartNet-Mobility 和 SAPIEN 环境,演示对未见形状、类别和现实世界数据的泛化能力。
提出的方法
- 预测每点的可行动性分数,指示在给定对象、交互类型和任务下哪些位置可进行互动。
- 预测每点的视觉动作轨迹分布及每条轨迹相关的成功概率,以指示如何互动。
- 使用条件变分自编码器根据点、对象、互动和任务特征生成多样化的轨迹提案。
- 训练一个强化学习策略(TD3),在仿真中探索多样化的交互轨迹,由感知网络监督以学习可操作先验;包含以好奇心驱动的反馈以促进对多样提案的探索。
- 利用基于 PointNet++ 的感知骨干网络对部分点云进行编码,并联合预测可行动性、轨迹提案和轨迹分数。
- 在 SAPIEN 中使用 PartNet-Mobility 评估预测及下游操控,进行定性与定量分析,包括对新形状和现实世界数据的泛化。
实验结果
研究问题
- RQ1单点可行动性和轨迹提案能否在多样化的3D关节形状和未见类别之间实现泛化?
- RQ2密集的、几何感知的、以交互为条件的先验是否比传统运动学表示提升下游操控性能?
- RQ3带有好奇心驱动探索的交互-感知循环是否能产生多样且与任务相关的轨迹提案?
- RQ4学习得到的先验在现实世界深度数据和真实机器人实验中的迁移效果如何?
主要发现
| 对象 | 交互 | 准确率 (%) | 精确率 (%) | 召回率 (%) | F-score (%) | 覆盖率 (%) |
|---|---|---|---|---|---|---|
| 门 | 推 | 82.24 / 72.44 | 81.28 / 72.83 | 85.22 / 73.86 | 82.76 / 72.54 | 82.00 / 70.54 |
| 门 | 拉 | 74.01 / 71.31 | 70.52 / 70.26 | 84.09 / 75.85 | 76.06 / 72.01 | 58.68 / 48.29 |
| 抽屉 | 推 | 79.69 / 71.59 | 74.65 / 71.80 | 91.19 / 70.45 | 81.65 / 70.52 | 74.15 / 68.08 |
| 抽屉 | 拉 | 78.41 / 71.88 | 74.54 / 72.29 | 87.50 / 72.44 | 80.23 / 71.71 | 81.15 / 64.31 |
- 可行动性预测在门和抽屉上达到可度量的准确率、精度、召回率、F1分数和覆盖率,展示跨类别的泛化。
- 轨迹提案模块给出基于点、对象、互动和任务的多样化交互轨迹,且每条轨迹的成功分数与任务成功相关。
- 基于 VAT-Mart 的下游操控在大多数任务上优于强化学习基线、手工启发式和类似 Where2Act 的基线,尤其在拉/推抽屉和门时表现更佳。
- 现实世界数据实验显示对真实深度扫描的定性泛化,且真实机器人演示在实践中验证了该方法。
- 该框架通过从可行动性热力图中采样交互点,并从提案分布中选择最高评价的轨迹,为计划提供一个紧凑、任务感知的空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。