[论文解读] Vehicular cooperative perception through action branching and federated reinforcement learning
该论文提出了一种联邦深度强化学习框架,通过四叉树感知机制联合优化车联网(V2V)网络中的车辆关联、资源块分配以及压缩点云内容选择。通过利用动作分支和联邦学习,该方法实现了可扩展的高效协同感知,在较低传输速率下相比非训练智能体实现了高达60%的奖励增益。
Cooperative perception plays a vital role in extending a vehicle’s sensing range beyond its line-of-sight. However, exchanging raw sensory data under limited communication resources is infeasible. Towards enabling an efficient cooperative perception, vehicles need to address the following fundamental question: What sensory data needs to be shared? at which resolution? and with which vehicles? To answer this question, in this paper, a novel framework is proposed to allow reinforcement learning (RL)-based vehicular association, resource block (RB) allocation, and content selection of cooperative perception messages (CPMs) by utilizing a quadtree-based point cloud compression mechanism. Furthermore, a federated RL approach is introduced in order to speed up the training process across vehicles. Simulation results show the ability of the RL agents to efficiently learn the vehicles’ association, RB allocation, and message content selection while maximizing vehicles’ satisfaction in terms of the received sensory information. The results also show that federated RL improves the training process, where better policies can be achieved within the same amount of time compared to the non-federated approach.
研究动机与目标
- 解决在无线资源受限条件下车联网中高效协同感知的挑战。
- 联合优化车辆关联、资源块分配以及协同感知消息(CPM)的内容选择。
- 通过基于四叉树的LiDAR点云压缩减少通信开销。
- 通过联邦强化学习加速并提升强化学习智能体的训练效率。
- 在尊重带宽和分辨率约束的前提下,最大化车辆对接收感官信息的满意度。
提出的方法
- 采用四叉树分解将3D LiDAR点云压缩为表示占用、空闲或未知状态的空间块。
- 将协同感知问题建模为具有联合动作空间的多智能体马尔可夫决策过程,涵盖关联、RB分配和CPM内容选择。
- 引入双分支Q网络(BDQ),通过解耦价值函数与优势函数,高效处理大规模动作空间。
- 应用联邦强化学习实现车辆协同训练,提升收敛速度与策略质量,同时避免共享原始数据。
- 采用基于感知感兴趣区域(RoI)质量与满意度度量的奖励函数,引导学习过程。
- 部署中心化RSU智能体协调车辆关联与资源分配,而车辆作为去中心化智能体自主行动。
实验结果
研究问题
- RQ1在严格的通信与带宽约束下,如何优化车联网协同感知?
- RQ2大规模动作空间对协同感知中深度强化学习可扩展性与性能有何影响?
- RQ3联邦强化学习能否提升车联网协同感知系统中的训练效率与策略质量?
- RQ4基于四叉树的压缩对数据压缩与感知质量之间的权衡有何影响?
- RQ5训练后的RL智能体在CPM内容选择方面在多大程度上可接近最优策略(oracle policy)的性能?
主要发现
- BDQ智能体在大规模动作空间(L=5)下仍能实现稳定训练,而标准DQN因计算不可行而失败。
- 联邦RL提升了训练收敛速度,使在相同时间内学习到的策略质量优于非联邦训练。
- 对于N=4,在相同传输速率下,训练智能体的平均车辆奖励比非训练智能体高出60%。
- 对于N=6,在相同传输速率下,训练智能体的奖励比非训练智能体高出40%。
- 训练智能体与最优策略之间的性能差距较小,表明CPM内容选择接近最优。
- 车辆奖励的CCDF显示,无论N值或传输速率范围如何,训练智能体始终优于随机动作选择。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。