[論文レビュー] Virtual to Real Reinforcement Learning for Autonomous Driving
この論文は、仮想シミュレータのフレームをシーン解析を介して現実的な画像に変換する現実的翻訳ネットワークを提案し、シミュレーションで訓練された強化学習エージェントが実世界の運転へ効果的に転移できるようにする。
Reinforcement learning is considered as a promising direction for driving policy learning. However, training autonomous driving vehicle with reinforcement learning in real environment involves non-affordable trial-and-error. It is more desirable to first train in a virtual environment and then transfer to the real environment. In this paper, we propose a novel realistic translation network to make model trained in virtual environment be workable in real world. The proposed network can convert non-realistic virtual image input into a realistic one with similar scene structure. Given realistic frames as input, driving policy trained by reinforcement learning can nicely adapt to real world driving. Experiments show that our proposed virtual to real (VR) reinforcement learning (RL) works pretty well. To our knowledge, this is the first successful case of driving policy trained by reinforcement learning that can adapt to real world driving data.
研究の動機と目的
- 安全でコスト効果の高いポリシー学習を、実世界展開前に仮想環境で訓練することで動機づける。
- 仮想画像を現実的なものへ変換しつつシーンパース構造を保持する2段階の画像翻訳パイプラインを開発する。
- 翻訳された現実的な画像で訓練されたRLエージェントが、純粋に仮想領域で訓練されたものやドメインランダム化を用いたものより性能を向上させることを示す。
- 実世界の運転タスクにおけるデータ効率と一般化を評価するために、教師あり学習のベースラインと比較する。
提案手法
- 仮想からパーシング(virtual images to scene parsing maps)とパーシングから現実(parsing maps to realistic images)の2モジュールの現実的翻訳ネットワークを導入する。
- 条件付きGAN目的にL1損失を追加してブレを減らす(G* = arg min_G max_D L_cGAN + lambda L1)。
- SegNet風のセマンティックセグメンテーションを用いて仮想と現実の中間ドメインとして機能するシーンパース表現を取得する。
- Asynchronous Advantage Actor-Critic (A3C)を用いて、現実的に翻訳されたフレームを状態入力として学習ポリシーを学習する。
- 現実世界のステアリングラベルをシミュレータのアクションへマッピングして、比較の公正性を確保する。
- 純粋に仮想(B-RL)エージェントと現実データを用いた教師あり(SV)モデルと比較する。
実験結果
リサーチクエスチョン
- RQ1シーンパース中間表現を介して仮想画像を現実的なフレームへ翻訳することで、シミュレーションで訓練したRLポリシーが実世界の運転へ転移可能か?
- RQ2parsed-to-real image synthesisを用いたVR RLは、ドメインランダム化RLや純粋な教師ありベースラインより、実世界データで優れているか?
- RQ3ポリシー転送のために segmentation ベースのブリッジを使用することと、直接の仮想-to-real マッピングを使用することの影響は?
- RQ4提案手法は異なる仮想運転環境間の転移学習でどう機能するか?
主な発見
| 精度 |
|---|
| Ours 43.40% |
| B-RL 28.33% |
| SV 53.60% |
- VR RLアプローチは、バ Baseline RLが仮想入力のみを使用するより高い行動予測精度を示す(43.40% vs 28.33%)。
- 教師あり学習は最高の精度を達成する(53.60%)が、多くのラベル付きデータを必要とする。
- VR RLは仮想環境間の転移実験でドメインランダマイゼーションRLを上回る。
- 画像からセグメンテーションへの翻訳は、RL訓練に適した現実的なフレームを可能にするため、シーン構造を保持する。
- セグメンテーションベースの中間体により、仮想と現実のドメイン間の翻訳がペア付きデータなしで実現可能になる。
- 本手法は、RLで訓練された運転ポリシーが実世界データに適応する初の成功例を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。