QUICK REVIEW

[论文解读] Learning Dexterous In-Hand Manipulation

OpenAI, Andrychowicz, Marcin|arXiv (Cornell University)|Aug 1, 2018

Robot Manipulation and Learning参考文献 65被引用 277

一句话总结

该论文在一个随机模拟器中训练基于视觉、具记忆的强化学习策略，使用 Shadow Hand 执行对象在掌心的巧妙再定位，并在没有人类示范的情况下将其转移到真实机器人。

ABSTRACT

We use reinforcement learning (RL) to learn dexterous in-hand manipulation policies which can perform vision-based object reorientation on a physical Shadow Dexterous Hand. The training is performed in a simulated environment in which we randomize many of the physical properties of the system like friction coefficients and an object's appearance. Our policies transfer to the physical robot despite being trained entirely in simulation. Our method does not rely on any human demonstrations, but many behaviors found in human manipulation emerge naturally, including finger gaiting, multi-finger coordination, and the controlled use of gravity. Our results were obtained using the same distributed RL system that was used to train OpenAI Five. We also include a video of our results: https://youtu.be/jwSbzNHGflM

研究动机与目标

在完全以仿真训练为基础的前提下，在物理机器人上展示基于视觉的巧妙指内操作。
展示广泛的随机化和记忆增强策略如何实现从仿真到现实的迁移。
开发一个仅在仿真中训练的基于视觉的物体姿态估计器，以实现无标记部署。
评估随机化和记忆在实现鲁棒迁移中的重要性。
分析在训练巧妙策略时分布式强化学习系统的样本复杂性和可扩展性。

提出的方法

在一组对 Shadow Hand 操作对象的随机 MuJoCo 仿真分布上，使用 PPO 将控制策略训练为具记忆的循环网络（LSTM）。
将每个关节的动作离散为11个桶，以简化学习。
采用不对称的 actor-critic 设置，其中价值网络可以访问额外的（仿真中的）信息，而在真实机器人上不可用。
在不同情节中随机化物理参数（摩擦、质量、重力等）和视觉外观，以弥合现实差距（域随机化）。
在合成渲染上训练一个独立的视觉模型，通过3个RGB摄像头视图预测物体姿态，从而在真实机器人上实现基于视觉的状态估计。

实验结果

研究问题

RQ1在强域随机化的仿真中完全训练的策略能否迁移到真实的五指巧妙手执行手内对象再定位？
RQ2记忆、观测随机化和物理随机化在成功迁移中起到怎样的作用？
RQ3仅在合成数据上训练的基于视觉的姿态估计是否足以在现实世界中运行？
RQ4分布式强化学习训练下系统如何扩展，记忆对性能的影响是什么？
RQ5在没有人类示范的学习中，出现了哪些抓取和操作策略？

主要发现

任务	均值	中位数	个别试验（排序）
Block (state)	43.4±13.8	50	-
Block (state, locked wrist)	44.2±13.4	50	-
Block (vision)	30.0±10.3	33	-
Octagonal prism (state)	29.0±19.7	30	-
Block (state) (physical)	18.8±17.1	13	50, 41, 29, 27, 14, 12, 6, 4, 4, 1
Block (state, locked wrist) (physical)	26.4±13.4	28.5	50, 43, 32, 29, 29, 28, 19, 13, 12, 9
Block (vision) (physical)	15.2±14.3	11.5	46, 28, 26, 15, 13, 10, 8, 3, 2, 1
Octagonal prism (state) (physical)	7.8±7.8	5	27, 15, 8, 8, 5, 5, 4, 3, 2, 1

策略展示出类人式抓取和巧妙行为，如指步行、多指协调和具重力感知的操作，且无需示范。
通过广泛的随机化进行训练可以迁移到真实的 Shadow Hand，尽管由于现实差距，真实世界的表现低于仿真。
在仿真中训练的基于视觉的姿态估计可用于在真实硬件上驱动策略，其性能接近基于标记的姿态估计。
具记忆的策略（LSTM）显著提升迁移和性能，相比无记忆策略。
系统可通过分布式强化学习扩展，在更多 GPUs/CPUs 下获得显著的加速，并且记忆增强策略在物理机器人上优于无记忆变体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。