[论文解读] Sim2Real View Invariant Visual Servoing by Recurrent Control
本文提出了一种基于循环神经网络的深度神经网络控制器,通过学习记忆过往动作与观测来实现自校准,从而实现视角不变的视觉伺服控制。该方法在仿真环境中训练,并通过极少的真实世界数据进行微调。在面对未见过的物体和新视角时,该方法在真实世界抓取任务中实现了70.83%的成功率,展示了无需显式标定的强泛化能力。
Humans are remarkably proficient at controlling their limbs and tools from a wide range of viewpoints and angles, even in the presence of optical distortions. In robotics, this ability is referred to as visual servoing: moving a tool or end-point to a desired location using primarily visual feedback. In this paper, we study how viewpoint-invariant visual servoing skills can be learned automatically in a robotic manipulation scenario. To this end, we train a deep recurrent controller that can automatically determine which actions move the end-point of a robotic arm to a desired object. The problem that must be solved by this controller is fundamentally ambiguous: under severe variation in viewpoint, it may be impossible to determine the actions in a single feedforward operation. Instead, our visual servoing system must use its memory of past movements to understand how the actions affect the robot motion from the current viewpoint, correcting mistakes and gradually moving closer to the target. This ability is in stark contrast to most visual servoing methods, which either assume known dynamics or require a calibration phase. We show how we can learn this recurrent controller using simulated data and a reinforcement learning objective. We then describe how the resulting model can be transferred to a real-world robot by disentangling perception from control and only adapting the visual layers. The adapted model can servo to previously unseen objects from novel viewpoints on a real-world Kuka IIWA robotic arm. For supplementary videos, see: https://fsadeghi.github.io/Sim2RealViewInvariantServo
研究动机与目标
- 实现机器人视觉伺服控制在未见视角和未见物体上的泛化,且无需显式标定。
- 通过利用过往动作与观测的记忆,解决在大视角变化下动作-效应映射的歧义性。
- 在仿真环境中使用强化学习训练控制策略,并通过极少的真实数据微调将其迁移到真实世界。
- 将感知与控制解耦,仅需对视觉特征进行适应即可实现模拟到现实的迁移。
- 仅从图像观测中端到端学习视角不变的伺服控制,无需人工设计的特征。
提出的方法
- 基于LSTM的循环控制器处理查询图像与当前图像的特征拼接,预测笛卡尔空间中的末端执行器运动。
- 控制器同时使用当前图像和先前选择的动作作为输入,使其能够在图像空间中隐式学习动作-效应关系。
- 使用独立的Q值头基于蒙特卡洛回报估计预测动作质量,支持强化学习训练。
- 辅助定位损失最小化预测与真实物体在图像中的位置距离,辅助视觉特征学习。
- 通过仅使用少量标注的真实世界图像对视觉卷积层进行微调,实现模拟到现实的迁移。
- 系统在随机化仿真环境中训练,包含多样化物体位置与视角,使用示范轨迹进行监督。
实验结果
研究问题
- RQ1循环神经网络是否能在无显式标定的情况下,于极端视角变化下学习自校准视觉动作效应?
- RQ2完全在仿真环境中训练的策略在面对新物体与新视角的真实世界机器人操作中,泛化能力如何?
- RQ3仅微调视觉特征在多大程度上能提升真实世界任务的性能?
- RQ4单一控制器是否能泛化至包含视觉干扰物的单物体与双物体场景?
- RQ5在模糊视觉伺服任务中,使用循环记忆是否显著优于前馈基线模型?
主要发现
- 该模型在真实世界双物体抓取任务中实现了70.83%的成功率,证明其对新视角和干扰物具有强泛化能力。
- 仅使用少量真实世界图像对视觉特征进行微调显著提升了性能,尤其在视觉模糊场景中表现更优。
- 循环控制器通过保持对过往动作与观测的记忆,成功纠正了初始运动误差,实现了自校准。
- 该系统泛化至训练仿真中未出现过的未见物体,展现出强大的零样本泛化能力。
- 定性结果表明,经微调的模型在区分视觉相似物体方面比纯仿真模型更具鲁棒性。
- 该方法通过有效解决视角变化下动作-效应映射的歧义性,优于非循环基线模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。