Skip to main content
QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning based Resource Allocation for V2V Communications

Hao Ye, Geoffrey Ye Li|arXiv (Cornell University)|May 16, 2018
Vehicular Ad Hoc Networks (VANETs)参考文献 15被引用数 27
ひとこと要約

本稿では、ユニキャストおよびブロードキャストの両状況において、サブバンドおよびパワー選択を統合最適化する、自律的で分散型の深層強化学習(DRL)ベースのリソース割り当てフレームワークを提案する。この手法により、各V2Vリンクが最小限のオーバーヘッドで最適な送信パrameterを自律的に学習可能となり、グローバルなチャネル状態情報に依存しないことで、遅延適合性が著しく向上し、V2Iリンクへのインタリーフェンスがランダム法やヒューリスティック法と比較して低減される。

ABSTRACT

In this paper, we develop a decentralized resource allocation mechanism for vehicle-to-vehicle (V2V) communications based on deep reinforcement learning, which can be applied to both unicast and broadcast scenarios. According to the decentralized resource allocation mechanism, an autonomous agent', a V2V link or a vehicle, makes its decisions to find the optimal sub-band and power level for transmission without requiring or having to wait for global information. Since the proposed method is decentralized, it incurs only limited transmission overhead. From the simulation results, each agent can effectively learn to satisfy the stringent latency constraints on V2V links while minimizing the interference to vehicle-to-infrastructure (V2I) communications.

研究の動機と目的

  • 高移動性におけるV2V通信における厳しい遅延および信頼性要件に対応する。
  • グローバルなチャネル状態情報が必要な集中型リソース割り当て手法のスケーラビリティおよびオーバーヘッドの制限を克服する。
  • 各V2Vリンクが独立して最適なサブバンドおよびパワー割り当てを学習する、分散型で自律的なメカニズムを構築する。
  • 動的車両環境下で、V2Vの遅延制約を満たすと同時に、共存するV2Iリンクへの干渉を最小限に抑える。
  • 深層強化学習を用いて、ユニキャストおよびブロードキャストの両V2V通信状況において、効果的なリソース管理を実現する。

提案手法

  • サブバンドおよびパワーレベル選択のための状態行動価値推定に、ダーリング構造を備えた深層Qネットワーク(DQN)を採用する。
  • 意思決定を支援するため、局所的なチャネル状態、干渉レベル、遅延制約を組み合わせた状態表現を用いる。
  • DRLフレームワークにおける学習の安定化と収束性の向上のため、経験再生とターゲットネットワークを適用する。
  • 方策学習のため、適応的学習率とAdam最適化を用いたε-greedy探索を実装する。
  • リソース割り当てをマルコフ決定過程(MDP)として扱い、各V2Vリンクを独立したエージェントとして、自身の送信戦略を最適化する。
  • 従来の研究とは異なり、ブロードキャストモードではスケジューリングとチャネル選択を同時に最適化する。

実験結果

リサーチクエスチョン

  • RQ1グローバルネットワーク情報に依存せずに、分散型DRLベースのアプローチが、厳密なV2V遅延制約を効果的に満たすことができるか?
  • RQ2提案されたDRL手法は、V2I干渉低減の観点で、ランダム法およびヒューリスティックベースのリソース割り当てと比較して、どのように差をつけるか?
  • RQ3DRLエージェントは、高移動性下でもサブバンド選択とパワー適応のバランスをどの程度うまく学習できるか?
  • RQ4DRLベースの手法は、成功メッセージ配信確率およびV2I容量の観点で、既存のブロードキャストプロトコルを上回るか?
  • RQ5DRLフレームワークは、ユニキャストおよびブロードキャストの両V2V通信状況に効果的に適用可能であり、一貫した性能向上を示せるか?

主な発見

  • 提案されたDRL手法は、特に車両数が増加するに従い、V2V遅延制約(100 ms)を満たす確率がランダム法および[14]法よりも顕著に高い。
  • ユニキャスト状況では、DRLベースの手法が[14]ヒューリスティック法よりもV2Iリンクへの干渉をより効果的に低減し、V2I合計容量が向上する。
  • ブロードキャスト状況では、DRL手法がp-パーシステンスプロトコルと比較して、すべてのターゲット車両へのメッセージ配信成功率が高くなる。
  • DRLエージェントは、遅延制約違反のリスクがあるリンクを優先的に、パワーおよびサブバンド割り当てを動的に調整する能力を学習する。
  • 本手法は、車両密度の変動に対しても安定した性能を維持し、大規模な車両ネットワークにおける耐障害性およびスケーラビリティを示す。
  • V2I容量およびV2V遅延適合性の両面で、DRLベースのアプローチはランダム割り当ておよび[14]法を上回り、干渉管理およびQoS供与における優位性を確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。