QUICK REVIEW

[论文解读] Autonomous UAV Navigation Using Reinforcement Learning

Huy Xuan Pham, Hung Manh La|arXiv (Cornell University)|Jan 16, 2018

Reinforcement Learning in Robotics参考文献 18被引用 48

一句话总结

本文提出一个结合PID的Q学习框架，使无人机在离线学习离散状态空间策略的未知环境中导航，在仿真（5x5网格）和真实室内飞行（AR Drone 2.0）中得到验证。

ABSTRACT

Unmanned aerial vehicles (UAV) are commonly used for missions in unknown environments, where an exact mathematical model of the environment may not be available. This paper provides a framework for using reinforcement learning to allow the UAV to navigate successfully in such environments. We conducted our simulation and real implementation to show how the UAVs can successfully learn to navigate through an unknown environment. Technical aspects regarding to applying reinforcement learning algorithm to a UAV system and UAV flight control were also addressed. This will enable continuing research using a UAV with learning capabilities in more important applications, such as wildfire monitoring, or search and rescue missions.

研究动机与目标

在没有预定义地图或模型的未知环境中推动 UAV 的导航。
提出一种使用Q-learning的强化学习框架以学习导航策略。
展示在四旋翼机器人上对该方法的仿真和真实世界实现。
演示将PID控制器集成以将学习到的动作转化为稳定的无人机运动。

提出的方法

将环境建模为以网格为中心、圆形状态的有限离散化状态空间，且高度保持不变。
应用带表格Q表的Q学习以学习状态-行动值，并采用ε-贪婪策略进行探索/利用。
定义四个离散横向动作（North、West、South、East）并设定奖励方案：到达目标为100，其他状态为-1。
集成PID控制器，使无人机从当前状态驱动到下一个状态并在距离d内悬停（在调优结果中为0.3 m）。
使用对学习策略与低层位置控制器的简单整合来应对无人机的非线性动力学。

实验结果

研究问题

RQ1在未知环境中，是否可以让无人机从任意起始位置学习导航到预定义目标，使用Q-learning？
RQ2在真实无人机上执行学习到的动作时，整合PID控制器是否能提高稳定性和精度？
RQ3在仿真和真实硬件中需要多少个episode才能收敛到最优路径？
RQ4在离散化的二维环境中，学习策略相较于理想最短路径的性能（路径长度、收敛性）如何？

主要发现

在仿真中，无人机在39个episode内学习到从起点到目标的8步最短轨迹的最优路径。
在真实设备上，AR Drone 2.0 需要38个episode来发现到目标的最优8步路径。
在对PID增益进行调优后， UAV在目标点半径0.3 m内达到悬停精度。
学习设置采用到达目标时+100，其它情况-1的奖励，指导高效导航。
在实际实现中使用的PID增益为 Kp=0.8, Kd=0.9, Ki=0（以稳定悬停并降低超调）。
最后一集轨迹展示了无人机以最短可能路径到达目标的过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。