QUICK REVIEW

[論文レビュー] Vehicular cooperative perception through action branching and federated reinforcement learning

Mohamed K. Abdel-Aziz, Cristina Perfecto|arXiv (Cornell University)|Jan 1, 2022

Privacy-Preserving Technologies in Data参考文献 40被引用数 65

ひとこと要約

本稿では、V2Vネットワークにおける車両の関連付け、リソースブロック割り当て、およびクアッドツリーに基づく認識を用いた圧縮点群コンテンツ選択を統合最適化するフェデレーテッド深層強化学習フレームワークを提案する。アクション分岐とフェデレーテッドラーニングを活用することで、非訓練エージェントと比較して通信レートを低く抑えながら最大60%の報酬向上を達成するスケーラブルで効率的な協調認識が可能になる。

ABSTRACT

Cooperative perception plays a vital role in extending a vehicle’s sensing range beyond its line-of-sight. However, exchanging raw sensory data under limited communication resources is infeasible. Towards enabling an efficient cooperative perception, vehicles need to address the following fundamental question: What sensory data needs to be shared? at which resolution? and with which vehicles? To answer this question, in this paper, a novel framework is proposed to allow reinforcement learning (RL)-based vehicular association, resource block (RB) allocation, and content selection of cooperative perception messages (CPMs) by utilizing a quadtree-based point cloud compression mechanism. Furthermore, a federated RL approach is introduced in order to speed up the training process across vehicles. Simulation results show the ability of the RL agents to efficiently learn the vehicles’ association, RB allocation, and message content selection while maximizing vehicles’ satisfaction in terms of the received sensory information. The results also show that federated RL improves the training process, where better policies can be achieved within the same amount of time compared to the non-federated approach.

研究の動機と目的

限られた無線リソース下での効率的な協調認識の課題に対処すること。
協調認識メッセージ（CPM）の車両関連付け、リソースブロック割り当て、コンテンツ選択を統合最適化すること。
LiDAR点群のクアッドツリーに基づく圧縮を用いて通信オーバーヘッドを低減すること。
フェデレーテッドラーニングを活用して強化学習エージェントの訓練を高速化・改善すること。
帯域幅と解像度の制約を尊重しつつ、受信したセンシング情報に対する車両の満足度を最大化すること。

提案手法

3次元LiDAR点群を、占有・未占有・未知の状態を表す空間ブロックにクアッドツリー分解して圧縮する。
関連付け、RB割り当て、CPMコンテンツ選択のための共同行動空間を持つマルチエージェントマルコフ決定過程として協調認識問題をモデル化する。
価値関数とアドバンテージ関数を分離することで、大規模な行動空間を効率的に処理できる、ダイングおよびブランチングQネットワーク（BDQ）を導入する。
フェデレーテッド強化学習を適用して、生データを共有せずに協調的にエージェントを訓練し、収束性とポリシー品質を向上させる。
学習を誘導するため、認識領域（RoI）の品質と満足度メトリクスに基づく報酬関数を用いる。
中心集約型のRSUエージェントが車両の関連付けとリソース割り当てを調整し、車両は分散型エージェントとして動作する。

実験結果

リサーチクエスチョン

RQ1厳密な通信および帯域幅制約下で、車両協調認識をどのように最適化できるか？
RQ2大規模な行動空間が、協調認識における深層強化学習のスケーラビリティとパフォーマンスに与える影響は何か？
RQ3フェデレーテッド強化学習は、車両協調認識システムにおける訓練効率とポリシー品質を向上させ得るか？
RQ4クアッドツリーに基づく圧縮は、データ削減と認識品質のトレードオフにどのように影響するか？
RQ5訓練済みのRLエージェントは、CPMコンテンツ選択においてオラクルポリシーにどの程度近づけるか？

主な発見

BDQエージェントは、大規模な行動空間（L=5）でも安定した訓練を達成したが、標準DQNは計算的に非現実的であるため失敗した。
フェデレーテッドRLは訓練収束性を向上させ、非フェデレーテッド訓練と比較して同じ時間内により優れたポリシーを学習可能であった。
N=4の場合、同じ送信レートで訓練済みエージェントが非訓練エージェントと比較して最大60%高い平均車両報酬を達成した。
N=6の場合、訓練済みエージェントは同等の送信レートで非訓練エージェントと比較して40%高い報酬を達成した。
訓練済みエージェントとオラクルの間のパフォーマンスギャップは小さく、CPMコンテンツ選択がほぼ最適に近いことが示された。
車両報酬のCCDFは、すべてのN値と送信レート範囲において、訓練済みエージェントがランダム行動選択を一貫して上回っていることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。