QUICK REVIEW

[论文解读] End-to-End Training of Deep Visuomotor Policies

Sergey Levine, Chelsea Finn|arXiv (Cornell University)|Apr 2, 2015

Reinforcement Learning in Robotics参考文献 80被引用 1,390

一句话总结

本文提出通过引导式策略搜索，将强化学习转化为监督学习，实现端到端训练深度卷积神经网络（CNN），直接从原始RGB图像映射到机器人执行器的扭矩输出。该方法通过联合优化视觉与控制，显著提升了真实世界操作任务（如拧瓶盖、插入积木、挂衣架）的性能与泛化能力，优于分别训练感知与控制模块的方法。

ABSTRACT

Policy search methods can allow robots to learn control policies for a wide range of tasks, but practical applications of policy search often require hand-engineered components for perception, state estimation, and low-level control. In this paper, we aim to answer the following question: does training the perception and control systems jointly end-to-end provide better performance than training each component separately? To this end, we develop a method that can be used to learn policies that map raw image observations directly to torques at the robot's motors. The policies are represented by deep convolutional neural networks (CNNs) with 92,000 parameters, and are trained using a partially observed guided policy search method, which transforms policy search into supervised learning, with supervision provided by a simple trajectory-centric reinforcement learning method. We evaluate our method on a range of real-world manipulation tasks that require close coordination between vision and control, such as screwing a cap onto a bottle, and present simulated comparisons to a range of prior policy search methods.

研究动机与目标

探究感知与控制组件的端到端联合训练是否能提升机器人操作任务的性能。
减少在策略搜索中对人工设计的感知、状态估计与底层控制组件的依赖。
在真实世界机器人环境中，利用深度神经网络实现从原始图像观测到电机扭矩的直接映射。
提升在需要精确视觉协调与接触动力学的任务中策略的泛化能力与鲁棒性。
证明通过引导式策略搜索进行监督微调，可在有限的真实世界数据下实现有效训练。

提出的方法

策略由一个含92,000个参数的7层CNN表示，其中引入了一种新型的空间特征点变换，以提升空间推理能力。
引导式策略搜索通过迭代使用无模型轨迹优化方法生成专家示范，将策略搜索转化为监督学习。
该算法形式化为Bregman ADMM（BADMM），确保收敛至局部最优解。
训练期间可观察完整状态（如物体位置），但在测试时仅使用原始RGB图像，从而实现对新配置的泛化能力。
训练采用随机梯度下降，代价函数结合L2距离、精度的对数惩罚项以及控制努力正则化。
策略在真实世界交互数据上进行训练，每个episode持续5秒，控制频率为20 Hz，使用配备固定摄像头的PR2机器人。

实验结果

研究问题

RQ1端到端联合训练视觉与控制组件是否能显著优于分别训练感知与控制模块？
RQ2在真实世界机器人操作中，使用原始图像观测与深度CNN是否能实现鲁棒且可泛化的视觉-运动策略？
RQ3引导式策略搜索是否能有效将高维策略搜索转化为监督学习，且在真实世界数据有限的情况下仍具有效性？
RQ4联合训练在多大程度上提升了对新物体位置与配置的泛化能力？
RQ5与以往的策略搜索方法相比，该方法在成功率与一致性方面表现如何？

主要发现

端到端训练的视觉-运动策略在新物体位置上的成功率更高，泛化能力也更优，优于分别训练的感知与控制模块。
该方法成功学习了复杂任务的策略，如拧瓶盖、将积木插入形状分类器、挂衣架，且仅使用了几十分钟的真实世界交互数据。
在模拟对比实验中，引导式策略搜索在训练高维神经网络策略时，优于多种先前的策略搜索方法。
引入空间特征点变换有效减少了过拟合，并提升了CNN策略的空间推理能力。
代价函数中的对数惩罚项使策略在目标位置的放置更加精确，尤其对拧瓶盖等任务至关重要。
策略在测试时无需完整状态信息即可泛化到未见过的配置，表现出对新型初始条件的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。