QUICK REVIEW

[论文解读] Deep Reinforcement Learning based Resource Allocation for V2V Communications

Hao Ye, Geoffrey Ye Li|arXiv (Cornell University)|May 16, 2018

Vehicular Ad Hoc Networks (VANETs)参考文献 15被引用 27

一句话总结

本文提出了一种基于去中心化深度强化学习（DRL）的车辆到车辆（V2V）通信资源分配框架，该框架在单播和广播场景下联合优化子带和功率选择。该方法使每个V2V链路能够以最低开销自主学习最优传输参数，显著提升了延迟合规性，并相较于随机和启发式基线方法减少了对车辆到基础设施（V2I）链路的干扰。

ABSTRACT

In this paper, we develop a decentralized resource allocation mechanism for vehicle-to-vehicle (V2V) communications based on deep reinforcement learning, which can be applied to both unicast and broadcast scenarios. According to the decentralized resource allocation mechanism, an autonomous agent', a V2V link or a vehicle, makes its decisions to find the optimal sub-band and power level for transmission without requiring or having to wait for global information. Since the proposed method is decentralized, it incurs only limited transmission overhead. From the simulation results, each agent can effectively learn to satisfy the stringent latency constraints on V2V links while minimizing the interference to vehicle-to-infrastructure (V2I) communications.

研究动机与目标

解决高移动性V2V通信中严格的延迟和可靠性要求挑战。
克服需要全局信道状态信息的集中式资源分配方法在可扩展性和开销方面的局限性。
开发一种去中心化、自主的机制，使每个V2V链路能够独立学习最优子带和功率分配。
在动态车载环境中，同时满足V2V延迟约束并最小化对共存V2I链路的干扰。
利用深度强化学习在单播和广播V2V通信场景中实现有效的资源管理。

提出的方法

采用具有双分支结构的深度Q网络（DQN）来估计子带和功率等级选择的状态-动作值。
使用结合本地信道条件、干扰水平和延迟约束的状态表示来指导决策。
在DRL框架中应用经验回放和目标网络以稳定训练并提高收敛性。
采用ε-贪婪探索策略，结合自适应学习率和Adam优化算法进行策略学习。
将资源分配建模为马尔可夫决策过程（MDP），其中每个V2V链路作为独立智能体优化自身的传输策略。
在广播模式下联合优化调度与信道选择，不同于以往研究中将二者分开处理的做法。

实验结果

研究问题

RQ1去中心化的DRL方法是否能在不依赖全局网络信息的情况下有效满足严格的V2V延迟约束？
RQ2与随机和基于启发式的资源分配方法相比，所提出的DRL方法在V2I干扰抑制方面表现如何？
RQ3DRL智能体在高移动性环境下，能在多大程度上学习平衡子带选择与功率自适应，以维持可靠的V2V链路？
RQ4在成功消息传输概率和V2I容量方面，DRL方法是否优于现有广播协议？
RQ5DRL框架是否能有效应用于单播和广播V2V通信场景，并实现一致的性能提升？

主要发现

所提出的DRL方法在车辆数量增加时，显著提高了满足V2V延迟约束（100 ms）的概率，优于随机方法和[14]方法。
在单播场景中，DRL方法比[14]启发式方法更有效地减少了对V2I链路的干扰，从而实现了更高的V2I总容量。
在广播场景中，DRL方法在向所有目标车辆成功传输消息方面的成功率高于p-持久协议。
DRL智能体能够动态调整功率和子带分配，优先保障存在违反延迟约束风险的链路。
该方法在不同车辆密度下均保持稳定性能，展示了在大规模车载网络中的鲁棒性和可扩展性。
DRL方法在V2I容量和V2V延迟满足率方面均优于随机分配和[14]方法，证实了其在干扰管理和QoS保障方面的优越性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。