[论文解读] AnyPlace: Learning Generalized Object Placement for Robot Manipulation
AnyPlace 使用视觉-语言模型提出放置位置,并使用扩散法本地姿态预测器生成多模态、精确的放置姿态,全部在合成数据上训练,且可迁移到真实机器人。
Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle -- such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.
研究动机与目标
- 在多样对象和放置模式(插入、堆叠、悬挂)下实现对象放置的泛化。
- 利用一个高级别的 VLM 来识别候选放置位置以聚焦低级预测。
- 完全在合成数据上训练并演示对真实世界任务的零样本迁移。
- 实现具有高精度和模式覆盖的多模态放置预测。
提出的方法
- 两阶段流水线:通过视觉-语言模型(VLM)的高级放置位置提议以及一个低级别的细粒度放置姿态预测器。
- 使用 Molmo VLM 提出离散放置位置;对局部区域进行裁剪并输入到扩散基姿态预测器。
- 基于扩散的解码器在对象与基座之间预测多组相对的 SE(3) 变换,并通过 Transformer 编码器实现跨对象特征交互。
- 完全合成数据集,涵盖 1,489 个对象、13 个类别,覆盖插入、堆叠和悬挂等配置。
- 训练损失结合平移、旋转(测地线距离)和 Chamfer 距离损失来监督姿态细化。
- 机器人执行流水线使用 AnyGrasp 进行抓取,cuRobo 进行运动规划;拒采样确保可行的抓取。
实验结果
研究问题
- RQ1一个以 VLM 指导的高级模块是否能够在未见对象上实现鲁棒且多模态的放置位置?
- RQ2将低级模型限制在局部区域是否能提升精度并提高对新几何形状的泛化?
- RQ3在没有演示示例的情况下,完全合成数据集对真实世界放置任务的迁移能力如何?
- RQ4相较于能量基或回归基线,基于扩散的解码器在多模态放置任务中是否表现更好?
- RQ5单任务训练与多任务训练在通用对象放置上的权衡是什么?
主要发现
| 方法 | 对象堆叠 | 杆插入 | 杯子悬挂 | 小瓶插入 |
|---|---|---|---|---|
| NSM(单任务) | 76.57 | 7.63 | 35.54 | 18.70 |
| RPDiff(单任务) | 80.34 | 22.94 | 92.02 | 16.51 |
| AnyPlace-EBM(单任务) | 80.04 | 8.44 | 91.57 | 65.64 |
| AnyPlace(单任务) | 80.16 | 30.95 | 94.80 | 92.74 |
| NSM(多任务) | 77.55 | 7.69 | 35.22 | 9.87 |
| RPDiff(多任务) | 80.21 | 22.33 | 94.05 | 24.26 |
| AnyPlace-EBM(多任务) | 78.95 | 10.75 | 90.87 | 57.24 |
| AnyPlace(多任务) | 78.28 | 24.99 | 94.12 | 75.25 |
- AnyPlace 在合成任务上在成功率和模式覆盖方面优于 NSM、RPDiff 与 AnyPlace-EBM 基线。
- 在单任务评估中,AnyPlace 在小瓶插入和杯子悬挂任务上表现出色,分别达到 92.74% 和 94.80%。
- 在多任务评估中,AnyPlace 仍保持强劲表现,例如小瓶插入 75.25% 和杯子悬挂 94.12%。
- 基于扩散的 AnyPlace 模型在多模态放置覆盖率和精度方面优于能量基线,尤其是在如小瓶插入等具有挑战性的任务中。
- 真实世界实验显示小瓶插入任务的成功率达到 80%,表明从合成训练到仿真到现实的有效迁移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。