QUICK REVIEW

[论文解读] Learning Predictive Representations for Deformable Objects Using Contrastive Estimation

Wilson Yan, Ashwin Vangipuram|arXiv (Cornell University)|Mar 11, 2020

Robot Manipulation and Learning参考文献 53被引用 75

一句话总结

该论文提出一种对比预测建模框架（CFM），它联合学习潜在表示和前向动力学以处理可变形物体，从而实现高效的 MPC 规划与带域随机化的仿真到现实转移。

ABSTRACT

Using visual model-based learning for deformable object manipulation is challenging due to difficulties in learning plannable visual representations along with complex dynamic models. In this work, we propose a new learning framework that jointly optimizes both the visual representation model and the dynamics model using contrastive estimation. Using simulation data collected by randomly perturbing deformable objects on a table, we learn latent dynamics models for these objects in an offline fashion. Then, using the learned models, we use simple model-based planning to solve challenging deformable object manipulation tasks such as spreading ropes and cloths. Experimentally, we show substantial improvements in performance over standard model-based learning techniques across our rope and cloth manipulation suite. Finally, we transfer our visual manipulation policies trained on data purely collected in simulation to a real PR2 robot through domain randomization.

研究动机与目标

解决可变形物体的可规划视觉表示和复杂动力学学习的挑战。
使用对比目标联合优化视觉编码器与潜在前向模型以学习 z_t 与 a_t 的关系。
证明对比学习比基线在潜在空间结构和规划质量上有改进。
在不使用真实世界训练数据的前提下，展示策略向 PR2 机器人实现 sim-to-real 转移。

提出的方法

用编码器 g_theta 将观测编码到潜在空间，并学习潜在前向模型 f_phi，从 z_t 和 a_t 预测 z_{t+1}。
使用 InfoNCE 对比损失对编码器和前向模型进行端到端联合训练，以最大化预测潜在状态与真实潜在状态之间的互信息。
使用一个简单的 MPC 方案，对动作进行采样，预测下一个潜在状态，并选择使与目标潜在状态距离最小的动作。
在潜在空间进行规划以提高鲁棒性和规划效率，而非在像素空间。
在仿真中对绳索和布料操控任务进行评估，并通过域随机化实现向真实机器人转移。
给出消融实验，比较对比损失变体和前向模型架构以论证设计选择。

实验结果

研究问题

RQ1对比学习是否相比基线在学习更好的潜在表示和前向模型以规划可变形物体的操控方面表现更佳？
RQ2对比框架的哪些组成部分（损失形式、前向模型容量、架构）对性能贡献最大？

主要发现

CFM在仿真中的绳索和布料任务上相较随机策略、视觉前向模型、自编码器、PlaNet 以及联合动力学等基线有显著的性能优势。
CFM及其提出的对比相似性与前向模型在多种方向和任务下，使最终状态到目标的几何距离更小。
域随机化使得在没有额外真实世界训练数据的情况下实现向 PR2 机器人的 sim-to-real 转移，在真实机器人测试中对比基线表现更优。
消融实验表明提出的对比相似性函数和非线性前向模型带来最佳的规划性能。
CFM在 varied goal 配置下展示了鲁棒的多目标可变形物体操控。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。