QUICK REVIEW

[论文解读] Towards Monocular Vision based Obstacle Avoidance through Deep Reinforcement Learning

Linhai Xie, Sen Wang|arXiv (Cornell University)|Jun 29, 2017

Robotic Path Planning Algorithms参考文献 24被引用 136

一句话总结

论文提出一种基于对战式架构的深度双Q网络（D3QN）用于单目视觉的障碍物避让，在仿真中训练，尽管深度预测带来噪声，仍可转移到真实机器人。

ABSTRACT

Obstacle avoidance is a fundamental requirement for autonomous robots which operate in, and interact with, the real world. When perception is limited to monocular vision avoiding collision becomes significantly more challenging due to the lack of 3D information. Conventional path planners for obstacle avoidance require tuning a number of parameters and do not have the ability to directly benefit from large datasets and continuous use. In this paper, a dueling architecture based deep double-Q network (D3QN) is proposed for obstacle avoidance, using only monocular RGB vision. Based on the dueling and double-Q mechanisms, D3QN can efficiently learn how to avoid obstacles in a simulator even with very noisy depth information predicted from RGB image. Extensive experiments show that D3QN enables twofold acceleration on learning compared with a normal deep Q network and the models trained solely in virtual environments can be directly transferred to real robots, generalizing well to various new environments with previously unseen dynamic objects.

研究动机与目标

使用仅依赖单目 RGB 视觉来解决机器人障碍物避让。
开发一种基于学习的方法，能够利用仿真数据并转移到真实场景。
通过对战和双Q网络架构提升训练效率与鲁棒性。

提出的方法

使用一个两阶段网络，先从 RGB 图像预测深度，然后应用 D3QN 输出动作。
采用对战网络，分别估计状态价值和动作优势。
纳入双Q学习框架以稳定训练并减少过估计。
在 Gazebo 中用两个环境（简单和复杂）进行训练，并对深度施加随机噪声/模糊以提升仿真到现实的转移。
将动作离散化为独立的线速度和角速度，并定义奖励 r = v * cos(omega) * delta_t，带有碰撞惩罚。

实验结果

研究问题

RQ1单目RGB输入能否通过深度强化学习有效用于障碍物避让？
RQ2相较于 DQN 和 DDQN，在该领域中 D3QN 架构是否提升了学习速度和性能？
RQ3在深度预测有噪声的情况下，在仿真中训练的策略能在真实机器人上转移到何种程度？
RQ4学得的策略对未见过的真实环境和动态障碍物有多鲁棒？

主要发现

D3QN 在障碍物避让任务中实现约两倍于标准 DQN 的学习速度。
对战和双Q机制相较于基线 DQN 和 DDQN 提升了训练效率和策略性能。
在深度预测噪声下在仿真中训练的策略能泛化到真实场景和未见过的动态对象。
实际测试表明在多样化室内环境中，静态 RGB 图像能给出可观的动作预测。
该方法实现了基于单目视觉的障碍物避让，直接从仿真到现实的转移，在 Turtlebot 上得到验证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。