[论文解读] Learning to Poke by Poking: Experiential Learning of Intuitive Physics
该论文通过自监督戳击数据,从原始图像训练一个前向–逆向动力学联合模型,使机器人能够预测并规划物体运动以达到目标配置。通过学习抽象物理表示,在泛化和规划方面优于基线。
We investigate an experiential learning paradigm for acquiring an internal model of intuitive physics. Our model is evaluated on a real-world robotic manipulation task that requires displacing objects to target locations by poking. The robot gathered over 400 hours of experience by executing more than 100K pokes on different objects. We propose a novel approach based on deep neural networks for modeling the dynamics of robot's interactions directly from images, by jointly estimating forward and inverse models of dynamics. The inverse model objective provides supervision to construct informative visual features, which the forward model can then predict and in turn regularize the feature space for the inverse model. The interplay between these two objectives creates useful, accurate models that can then be used for multi-step decision making. This formulation has the additional benefit that it is possible to learn forward models in an abstract feature space and thus alleviate the need of predicting pixels. Our experiments show that this joint modeling approach outperforms alternative methods.
研究动机与目标
- 研究机器人是否能够从自生成的交互数据中学习一个内部、直观的物理模型。
- 开发一个在从图像派生的学习到的抽象特征空间中工作的一体化前向与逆向动力学模型。
- 利用所学模型实现多步规划,以推动和重新排列对象朝向目标配置。
- 展示对新颖对象几何形状和纹理以及含干扰物情境的泛化能力。
提出的方法
- 使用Baxter机器人在16个对象上收集超过400小时的真实世界戳击数据(>100K次戳击)。"
- 训练一个孪生CNN,将前后图像映射到潜在特征,然后学习一个逆向模型以预测戳击参数(位置、角度、长度)。
- 同时学习一个前向模型,在给定当前特征和动作的条件下预测下一个特征。
- 离散化戳击输出以处理多模态性,并使用结合逆向交叉熵和特征空间中的前向L1的联合损失。
- 使用贪心规划器进行评估,该规划器迭代地预测并执行戳击以将对象移动到目标图像;并与基于 blob 的基线模型进行比较。
- 用一个二维矩形进行仿真以显示前向模型对逆向模型的正则化作用;在真实机器人任务和新对象上测试泛化能力。
实验结果
研究问题
- RQ1机器人是否能够从自生成的戳击数据中学习一个直观的物理模型,而无需显式监督?
- RQ2前向与逆向动力学的联合训练是否比仅逆向或基线 blob 的方法在预测特征质量和规划性能上有提升?
- RQ3学习到的模型在面对未见过的对象几何形状/纹理以及需要更长 horizon 规划的任务时的泛化能力如何?
- RQ4在数据匮乏与数据充足的情形中,前向模型的正则化作用有何影响?
主要发现
- 联合前向–逆向动力学学习在对象姿态准确性和规划质量方面优于基线。
- 该模型对具有新几何和纹理的对象以及含干扰物的任务具有泛化能力,超越单次戳击的训练统计。
- 前向模型对逆向特征空间起到正则化作用,特别是在训练数据有限时,并提升了更远距离推挤任务的泛化性。
- 一项仿真研究表明,当训练数据较少(1–2万)时,联合模型的表现优于逆向模型;达到约1万到2万数据时,接近逆向模型的性能;达到10万数据时接近逆向性能。
- 与基于 blob 的基线相比,逆向模型和联合模型在推挤任务上的对象几何捕捉能力更强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。