[论文解读] Learning Arbitrary-Goal Fabric Folding with One Hour of Real Robot Experience
本文提出了一种样本高效、目标条件化的强化学习方法,使真实世界机器人仅通过一小时的自我监督真实世界经验,无需人类示范、仿真或奖励工程,即可学习任意目标的布料折叠。该方法采用全卷积深度Q网络,结合离散化的折叠动作与事后经验回放(HER),仅通过视觉观察即在未见折叠任务上实现最先进性能。
Manipulating deformable objects, such as fabric, is a long standing problem in robotics, with state estimation and control posing a significant challenge for traditional methods. In this paper, we show that it is possible to learn fabric folding skills in only an hour of self-supervised real robot experience, without human supervision or simulation. Our approach relies on fully convolutional networks and the manipulation of visual inputs to exploit learned features, allowing us to create an expressive goal-conditioned pick and place policy that can be trained efficiently with real world robot data only. Folding skills are learned with only a sparse reward function and thus do not require reward function engineering, merely an image of the goal configuration. We demonstrate our method on a set of towel-folding tasks, and show that our approach is able to discover sequential folding strategies, purely from trial-and-error. We achieve state-of-the-art results without the need for demonstrations or simulation, used in prior approaches. Videos available at: https://sites.google.com/view/learningtofold
研究动机与目标
- 在无需人类示范、仿真或奖励工程的情况下,实现真实世界布料折叠。
- 开发一种样本高效的强化学习方法,使其能泛化至任意未见的目标配置。
- 在推理时实现对更高分辨率动作空间的泛化,而无需重新训练。
- 证明复杂、顺序性的折叠策略可仅通过稀疏视觉奖励的试错学习过程自然涌现。
提出的方法
- 该方法采用全卷积神经网络处理RGB图像,并预测目标条件化的抓取与放置动作。
- 将折叠动作离散化为8个旋转桶和3个体积桶,以在保持表达能力的同时提升样本效率。
- 使用稀疏奖励函数,仅当当前图像与目标图像匹配时,智能体才获得密集稀疏奖励。
- 应用事后经验回放(HER)将过渡重新标记为达成的目标,从而实现从稀疏奖励中高效学习。
- 机器人通过随机交互自主收集一小时的真实世界交互数据,形成自我监督数据集。
- 通过在推理时增加离散化桶的数量,训练好的策略可在不重新训练的情况下泛化至更高分辨率的动作空间。
实验结果
研究问题
- RQ1机器人能否仅通过一小时的真实世界、自我监督经验学习复杂、顺序性的布料折叠任务?
- RQ2基于视觉的目标条件化策略能否在无需人类示范或仿真的情况下泛化至任意未见的目标配置?
- RQ3该方法在仅使用稀疏视觉奖励的情况下,通过试错学习复杂折叠策略的效率如何?
- RQ4该策略能否在推理时泛化至更高分辨率的动作空间而无需重新训练?
- RQ5与依赖模仿学习或仿真到真实世界迁移的先前方法相比,该方法表现如何?
主要发现
- 该方法在三个简单折叠任务(小内折、双内折、四角内折)上均达到100%成功率,优于随机基线。
- 对于更复杂的双直线折和双三角折任务,策略分别实现了60%和10%的成功率,表明其在无直接监督下仍能推断出顺序性动作。
- 模型在推理时成功泛化至更高分辨率的动作空间,提升了对训练期间未出现的精细控制任务的准确性。
- 系统学会了执行微调动作以减少视觉重叠,表明其对布料状态存在内部推理能力。
- 消融实验基线(无HER)持续失败,凸显事后经验回放对从稀疏奖励中实现学习的关键作用。
- 该方法优于先前依赖人类示范或仿真方法,仅使用真实世界数据即实现了最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。