[论文解读] Autonomous Air Traffic Controller: A Deep Multi-Agent Reinforcement Learning Approach
本文提出了一种深度多智能体强化学习框架 DD-MARL,用于高密度航路空域的自主空中交通管制。采用集中式训练、分布式执行的方法,结合基于 A2C 的演员-critic 模型并引入 PPO 损失以增强稳定性,该系统在极端交通场景下的仿真中,于交叉点实现了 99.97% 的冲突解决率,在汇聚点实现了 100% 的冲突解决率,展示了在 BlueSky 环境中的可扩展性与安全性。
Air traffic control is a real-time safety-critical decision making process in highly dynamic and stochastic environments. In today's aviation practice, a human air traffic controller monitors and directs many aircraft flying through its designated airspace sector. With the fast growing air traffic complexity in traditional (commercial airliners) and low-altitude (drones and eVTOL aircraft) airspace, an autonomous air traffic control system is needed to accommodate high density air traffic and ensure safe separation between aircraft. We propose a deep multi-agent reinforcement learning framework that is able to identify and resolve conflicts between aircraft in a high-density, stochastic, and dynamic en-route sector with multiple intersections and merging points. The proposed framework utilizes an actor-critic model, A2C that incorporates the loss function from Proximal Policy Optimization (PPO) to help stabilize the learning process. In addition we use a centralized learning, decentralized execution scheme where one neural network is learned and shared by all agents in the environment. We show that our framework is both scalable and efficient for large number of incoming aircraft to achieve extremely high traffic throughput with safety guarantee. We evaluate our model via extensive simulations in the BlueSky environment. Results show that our framework is able to resolve 99.97% and 100% of all conflicts both at intersections and merging points, respectively, in extreme high-density air traffic scenarios.
研究动机与目标
- 开发一种能够以安全保证管理高密度、动态且具有随机性的航路空域的自主空中交通管制系统。
- 解决在不确定性条件下多个飞机在交叉点和汇聚点汇聚时的冲突解决挑战。
- 设计一种可扩展且高效的框架,实现每架飞机的实时、分布式决策,同时共享一个集中式策略网络。
- 评估使用深度强化学习在复杂、高吞吐量空域中替代人工管制员的可行性。
- 在真实、开源的空中交通仿真环境(BlueSky)中,展示多智能体强化学习方法的有效性。
提出的方法
- 该框架采用深度多智能体强化学习设置,其中每架飞机被建模为具有独立策略的独立智能体。
- 采用集中式训练、分布式执行(CTDE)方案,使用单个共享神经网络对所有智能体进行训练,以提高样本效率和训练稳定性。
- 策略网络基于优势演员-critic(A2C)算法,并引入 PPO 损失函数以增强训练稳定性并改善收敛性。
- 状态观测包括本机的位置、速度以及距离最近的三架邻近飞机的状态,排除远距离飞机以降低复杂度。
- 动作为离散的速度建议(例如:增加、减小、保持速度),以防止航路及汇聚点发生冲突。
- 环境通过 BlueSky 空中交通仿真平台进行仿真,该平台支持真实、高保真、实时的空中交通场景。
实验结果
研究问题
- RQ1深度多智能体强化学习框架是否能有效解决高密度航路空域中多个交叉点和汇聚点的飞机冲突?
- RQ2在极端交通密度和随机条件下,DD-MARL 框架的冲突解决率表现如何?
- RQ3在多智能体空中交通管制设置中,使用共享集中式神经网络在多大程度上提升了训练稳定性和可扩展性?
- RQ4该框架是否能在高动态复杂性的复杂汇聚场景中实现近乎完美的安全性能(即 100% 冲突解决)?
- RQ5在真实、大规模的空中交通场景中,该框架收敛到高性能策略的速度如何?
主要发现
- 在案例研究 1 中,DD-MARL 框架实现了平均 29.99 架飞机成功脱离扇区且无冲突,对应交叉点 99.97% 的冲突解决率。
- 在案例研究 2 中,该框架将两条航路合并为一条,实现了完美的 100% 冲突解决率,200 次测试实验的平均得分为 30,中位数也为 30。
- 学习曲线显示,案例研究 1 在 7,500 个训练周期内收敛至接近最优策略,案例研究 2 在 2,000 个周期内完成收敛,表明训练效率高。
- 使用带有 PPO 正则化损失的共享神经网络显著提升了训练稳定性,并实现了在大量智能体上的可扩展学习。
- 该框架在随机环境中表现出强鲁棒性,中位性能无失败,表明其决策具有一致性和可靠性。
- 结果表明,该框架能够以高吞吐量和极少人工干预处理复杂、实时、安全关键的空中交通管制任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。