QUICK REVIEW

[論文レビュー] Combining Deep Reinforcement Learning and Safety Based Control for Autonomous Driving

Xi Xiong, Jianqiang Wang|arXiv (Cornell University)|Dec 1, 2016

Reinforcement Learning in Robotics参考文献 12被引用数 65

ひとこと要約

本稿では、熟知した環境におけるエンドツーエンドのポリシー学習に深層決定論的方策勾配（DDPG）を、動的交通環境におけるリアルタイム障害物回避に人工ポテンシャル場（APF）を組み合わせたハイブリッド制御フレームワークを提案する。この手法は、混合シナリオにおいて安定した経路追従性と高い安全性を達成し、純粋な強化学習（RL）または安全指向手法のみを用いた場合よりも優れた性能を示す。

ABSTRACT

With the development of state-of-art deep reinforcement learning, we can efficiently tackle continuous control problems. But the deep reinforcement learning method for continuous control is based on historical data, which would make unpredicted decisions in unfamiliar scenarios. Combining deep reinforcement learning and safety based control can get good performance for self-driving and collision avoidance. In this passage, we use the Deep Deterministic Policy Gradient algorithm to implement autonomous driving without vehicles around. The vehicle can learn the driving policy in a stable and familiar environment, which is efficient and reliable. Then we use the artificial potential field to design collision avoidance algorithm with vehicles around. The path tracking method is also taken into consideration. The combination of deep reinforcement learning and safety based control performs well in most scenarios.

研究の動機と目的

不慣れな走行シナリオにおける深層強化学習（DRL）の不安定さと予測不能さを解消すること。
物理的インスピレーションを受ける障害物回避メカニズムを統合することで、動的交通環境における安全性を向上させること。
構造化された環境において、信頼性の高い経路追従性と効率的なポリシー学習を実現すること。
DRLのサンプル効率とポテンシャル場手法によるリアルタイムの安全性保証を組み合わせること。
密度の高い交通状況を含む多様な走行シナリオにおけるハイブリッドシステムの性能を評価すること。

提案手法

静的で熟知した環境における自律走行のための深層強化学習エージェントを訓練するために、深層決定論的方策勾配（DDPG）を用いる。
近隣の車両からの反発力生成に人工ポテンシャル場（APF）を活用し、リアルタイムでの障害物回避を実現する。
計画された経路に沿った車両軌道を維持するための経路追従制御を統合する。
交通密度と環境の熟知度に基づいて、DDPGポリシーとAPFベースの制御の間で切り替える。
連続的な制御行動を用いてDDPGエージェントを訓練することで、滑らかなステアリングと加速意思決定を可能にする。
学習済みポリシーと安全制約を組み合わせることで、エッジケースにおけるロバストネスを確保する。

実験結果

リサーチクエスチョン

RQ1安全指向制御と統合することで、不慣れな走行シナリオにおける深層強化学習のロバストネスを向上させられるか？
RQ2DDPGと人工ポテンシャル場を組み合わせることで、障害物回避性能にどのような影響を与えるか？
RQ3ハイブリッド制御が経路追従精度と走行の滑らかさに与える影響は何か？
RQ4静的および動的障害物が混在する環境では、システムの性能はどのように変化するか？
RQ5実世界の走行タスクにおいて、ハイブリッドアプローチは純粋なDRLや純粋な安全指向制御を上回る性能を示せるか？

主な発見

ハイブリッドシステムは、熟知した環境および動的環境の両方で安定的かつ信頼性の高い走行性能を達成した。
DDPGとAPFの統合により、密度の高い交通状況における障害物回避性能が顕著に向上した。
リアルタイムでのポテンシャル場調整により、安全確保を確保しながらも正確な経路追従性を維持した。
純粋なDRLでは一般化能力に欠けるため失敗する可能性がある不慣れなシナリオにおいても、システムはロバストネスを示した。
DDPGとAPFの組み合わせは、単独で使用した場合よりも包括的な性能向上をもたらした。
構造化された環境では効率的なポリシー学習が可能であり、予測不可能な交通状況においても安全性が保証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。