QUICK REVIEW

[論文レビュー] Agent-based Learning for Driving Policy Learning in Connected and Autonomous Vehicles

Xiongzhao Wang, De Silva|arXiv (Cornell University)|Sep 14, 2017

Traffic control and management参考文献 13被引用数 1

ひとこと要約

本論文は、車両間通信（V2V）を用いたリアルタイムデータを活用して自己進化する自律的走行ポリシーを学習する、エージェントベースの強化学習フレームワークを提案する。結果から、V2V通信が学習効率を顕著に向上させ、CAVが時間の経過とともに衝突回避および目的達成ポリシーを自律的に開発できることを示している。

ABSTRACT

Due to the complexity of the natural world, a programmer cannot foresee all possible situations a connected and autonomous vehicle (CAV) will face during its operation, and hence, CAVs will need to learn to make decisions autonomously. Due to the sensing of its surroundings and information exchanged with other vehicles and road infrastructure a CAV will have access to large amounts of useful data. This paper investigates a data driven driving policy learning framework through an agent based learning. A reinforcement learning framework is presented in the paper, which simulates the self-evolution of a CAV over its lifetime. The results indicated that overtime the CAVs are able to learn useful policies to avoid crashes and achieve its objectives in more efficient ways. Vehicle to vehicle communication in particular, enables additional useful information to be acquired by CAVs, which in turn enables CAVs to learn driving policies more efficiently. The simulation results indicate that while a CAV can learn to make autonomous decision V2V communication of information improves this capability. The future work will investigate complex driving policies such as roundabout negotiations, cooperative learning between CAVs and deep reinforcement learning to traverse larger state spaces.

研究の動機と目的

CAVにとって事前に定義されたルールでは対応できない予測不能な実世界の走行状況に対処するため。
継続的な相互作用とデータ収集を通じて、CAVが最適な走行ポリシーを自律的に学習できるようにするため。
車両間通信（V2V）が走行ポリシー学習の効率をどのように向上させるかを調査するため。
長期的な適応性と自己進化を支援するスケーラブルでデータ駆動型のフレームワークを構築するため。

提案手法

本フレームワークは、シミュレーテッド環境内での試行錯誤的相互作用を通じてポリシーを学習する強化学習（RL）パラダイムを採用する。
各CAVは環境を観測し、行動をとる自律エージェントとして機能し、安全性および効率性指標に基づいて報酬を受ける。
V2V通信を統合し、周囲の車両の位置や意図といった追加の文脈的情報を提供することで、学習のための状態空間が拡張される。
学習プロセスはCAVの生涯にわたる進化を模倣し、多様な交通状況への繰り返しの暴露を通じてポリシーが時間の経過とともに改善される。
接続された車両およびインfraから得られるリアルタイムデータストリームを活用することで、スケーラブルなポリシー学習が可能になる。
アーキテクチャは、より大きなかつ複雑な状態空間を扱うために、将来の深層強化学習との統合を想定して設計されている。

実験結果

リサーチクエスチョン

RQ1予め定義されたルールが存在しない複雑で予測不能な交通環境において、CAVはどのように効果的な走行ポリシーを学習できるか？
RQ2車両間通信（V2V）は、CAVにおける走行ポリシー学習の効率性および有効性をどの程度向上させるか？
RQ3自己進化型のエージェントベースの強化学習フレームワークは、CAVが時間の経過とともに安全かつ効率的な走行行動を自律的に開発できるか？
RQ4V2Vデータの統合は、学習された走行ポリシーの収束速度およびパフォーマンスにどのように影響を与えるか？

主な発見

CAVは事前に定義されたルールがなくても、強化学習を通じて自律走行ポリシーを学習可能である。
V2V通信の統合により、シミュレーション環境における走行ポリシー学習の効率が顕著に向上した。
時間の経過とともに、CAVは衝突回避およびミッション目的の達成をより効率的に行うポリシーを発展させた。
V2V通信は、エージェントの認識力および意思決定能力を強化する重要な文脈的情報を提供する。
本フレームワークは、円環交差路の通過などの複雑なマニューバへの将来的な拡張に対してもスケーラブルであることを示した。
今後の研究では、より大きなかつ複雑な状態空間での学習を可能にする深層強化学習の活用を検討する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。