[论文解读] RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation
RoboTurk 通过移动设备对6-DoF机器人演示进行众包,实现模仿学习数据收集,对网络条件具有鲁棒性,并能从大量演示数据中进行有效的策略学习。
Imitation Learning has empowered recent advances in learning robotic manipulation tasks by addressing shortcomings of Reinforcement Learning such as exploration and reward specification. However, research in this area has been limited to modest-sized datasets due to the difficulty of collecting large quantities of task demonstrations through existing mechanisms. This work introduces RoboTurk to address this challenge. RoboTurk is a crowdsourcing platform for high quality 6-DoF trajectory based teleoperation through the use of widely available mobile devices (e.g. iPhone). We evaluate RoboTurk on three manipulation tasks of varying timescales (15-120s) and observe that our user interface is statistically similar to special purpose hardware such as virtual reality controllers in terms of task completion times. Furthermore, we observe that poor network conditions, such as low bandwidth and high delay links, do not substantially affect the remote users' ability to perform task demonstrations successfully on RoboTurk. Lastly, we demonstrate the efficacy of RoboTurk through the collection of a pilot dataset; using RoboTurk, we collected 137.5 hours of manipulation data from remote workers, amounting to over 2200 successful task demonstrations in 22 hours of total system usage. We show that the data obtained through RoboTurk enables policy learning on multi-step manipulation tasks with sparse rewards and that using larger quantities of demonstrations during policy learning provides benefits in terms of both learning consistency and final performance. For additional results, videos, and to download our pilot dataset, visit $\\href{http://roboturk.stanford.edu/}{\ exttt{roboturk.stanford.edu}}$
研究动机与目标
- 实现可扩展地收集高质量机器人示例以用于 imitate learning 以解决数据瓶颈。
- 设计一个利用普及设备(iPhone)实现实时遥操作模拟机器人的众包平台。
- 评估用户界面和网络鲁棒性,以证明 RoboTurk 能达到 VR 硬件性能水平并能承受差的连接条件。
- 组建一个演示数据的试点数据集,并展示使用该数据进行从稀疏奖励的策略学习。
提出的方法
- 实现基于云的平台,使用 WebRTC 实时流传输视频和遥操作指令,以实现低延迟控制。
- 使用带 ARKit 的 iPhone 作为运动控制器,将姿态映射到机器人末端执行器运动。
- 提供一个协调服务器,为每个用户创建专用遥操作会话,支持可扩展的多用户操作。
- 采用模块化架构,便于扩展到新任务、仿真器和机器人。
- 开展用户研究,对比界面(键盘、3D 鼠标、VR 控制器、手机),并评估在不同网络条件下的性能。
- 收集并发布一个试点数据集(超过 2200 次演示,137 小时),以便通过演示引导的强化学习实现学习。
实验结果
研究问题
- RQ1RoboTurk 能否通过使用常见设备进行众包,收集大规模、高质量的遥操作演示?
- RQ2基于 iPhone 的界面在任务完成时间方面与 VR 和其他输入方式相比如何?
- RQ3RoboTurk 的演示是否对网络延迟和带宽变化具有鲁棒性,适用于远程遥操作?
- RQ4更大规模的演示数据集是否提升对稀疏奖励的操控任务的策略学习?
主要发现
- 手机界面的完成时间在统计学上与 VR 控制器相似,并且在挑选任务上明显快于键盘或 3D 鼠标。
- 在从基线到低带宽/高延迟的网络条件下,完成时间分布保持相似,显示鲁棒性。
- 试点数据集包含 137 小时数据和 2200 多次成功演示,在 20 小时使用中完成采集。
- 演示数据量的增加有助于策略学习,在 can-picking 与 round-assembly 任务中,1000 次演示达到最佳的平均性能。
- 通过 PPO,将演示初始化的 RL 章节从演示状态开始,展示了从众包数据进行稀疏奖励操控学习的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。