QUICK REVIEW

[论文解读] Autonomous Quadrotor Landing using Deep Reinforcement Learning

Riccardo Polvara, Massimiliano Patacchiola|arXiv (Cornell University)|Sep 11, 2017

Robotics and Sensor-Based Localization参考文献 21被引用 40

一句话总结

本文提出一种基于深度强化学习（DRL）的方法，仅使用低分辨率垂直向下摄像头图像，实现四旋翼无人机的自主着陆。采用分层DQN架构将任务分解为地标检测与垂直下降两部分。该方法在性能上达到人类飞行员及先进AR追踪系统的水平，且通过领域随机化与分块经验回放技术，提升了对标记损坏的鲁棒性，并增强了在真实环境中的泛化能力。

ABSTRACT

Landing an unmanned aerial vehicle (UAV) on a ground marker is an open problem despite the effort of the research community. Previous attempts mostly focused on the analysis of hand-crafted geometric features and the use of external sensors in order to allow the vehicle to approach the land-pad. In this article, we propose a method based on deep reinforcement learning that only requires low-resolution images taken from a down-looking camera in order to identify the position of the marker and land the UAV on it. The proposed approach is based on a hierarchy of Deep Q-Networks (DQNs) used as high-level control policy for the navigation toward the marker. We implemented different technical solutions, such as the combination of vanilla and double DQNs, and a partitioned buffer replay. Using domain randomization we trained the vehicle on uniform textures and we tested it on a large variety of simulated and real-world environments. The overall performance is comparable with a state-of-the-art algorithm and human pilots.

研究动机与目标

解决在无外部传感器或手工设计特征的情况下，无人机在地面标记上实现自主着陆的挑战。
克服以往基于视觉或传感器融合方法的局限性，这些方法依赖特定标记或复杂的传感器配置。
开发一种基于学习的系统，仅使用视觉输入即可在多样化的真实世界与仿真环境中实现泛化。
通过领域随机化与新型训练技术，提升对标记损坏与环境变化的鲁棒性。
证明端到端DRL可实现与人类飞行员及AR追踪系统相当的高着陆成功率。

提出的方法

采用分层深度Q网络（DQN）框架，包含两个专用DQN：一个用于地标检测，一个用于垂直下降控制。
使用双DQN以减轻训练过程中价值函数近似中的过度估计偏差。
实现分块经验回放缓冲机制，优先处理稀有且稀疏的转移，提升稀疏奖励环境下的学习效率。
通过使用均匀纹理及随机光照/遮挡，在训练中应用领域随机化，以增强对真实世界环境的泛化能力。
在两个DQN之间集成内部触发机制，协调从检测阶段到下降阶段的过渡。
使用稀疏密集奖励端到端训练DQN，使智能体直接从像素观测中学习高层控制策略。

实验结果

研究问题

RQ1深度强化学习智能体能否仅使用低分辨率垂直摄像头图像，自主检测地面标记并执行受控的垂直着陆？
RQ2所提出的分层DQN架构在样本效率与着陆成功率方面，相较于端到端或单策略方法有何差异？
RQ3领域随机化在多大程度上能提升DRL策略在训练中未见过的真实世界环境中的泛化能力？
RQ4分块经验回放机制如何提升稀疏奖励着陆任务中的学习稳定性和性能？
RQ5该DRL系统在标记损坏与环境变化的鲁棒性方面，能否优于传统AR标记追踪与人类飞行员？

主要发现

DQN-multi模型在均匀纹理、混合纹理及真实感仿真环境中均实现了87%的成功率，优于DQN-single（41%），并匹配人类飞行员表现（91%）。
在标记损坏情况下，DQN-multi系统保持51%的成功率，显著优于AR追踪器（因模板匹配失败而降至0%）。
在真实世界室内环境（实验室、走廊、夹层）中，系统实现了62%的着陆成功率，多数失败原因归因于极端光照与飞行漂移，而非标记识别错误。
DQN-multi策略学习到仅在无人机正对标记时才优先执行下降，表现为动作价值分布显示在目标位置处下降效用显著上升。
该系统比人类飞行员更快，平均仅需19步即可着陆，而人类飞行员在离散控制条件下需23步。
联合训练检测与下降任务的基线DQN未能学会该任务，凸显分层分解在实现稳定训练中的关键作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。