QUICK REVIEW

[論文レビュー] Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic

Mikael Henaff, Alfredo Canziani|arXiv (Cornell University)|Jan 8, 2019

Gaussian Processes and Bayesian Inference参考文献 40被引用数 78

ひとこと要約

この論文は、観測データのみから駆動方針を学習する。確率的前方モデルと方針コストに対する不確実性正則化を用いて学習し、学習したダイナミクスを介して環境との相互作用なしに多段階のバックプロパゲーションを可能にする。

ABSTRACT

Learning a policy using only observational data is challenging because the distribution of states it induces at execution time may differ from the distribution observed during training. We propose to train a policy by unrolling a learned model of the environment dynamics over multiple time steps while explicitly penalizing two costs: the original cost the policy seeks to optimize, and an uncertainty cost which represents its divergence from the states it is trained on. We measure this second cost by using the uncertainty of the dynamics model about its own predictions, using recent ideas from uncertainty estimation for deep networks. We evaluate our approach using a large-scale observational dataset of driving behavior recorded from traffic cameras, and show that we are able to learn effective driving policies from purely observational data, with no environment interaction.

研究の動機と目的

環境との相互作用がコスト高または危険である観測駆動データから方針を学習する動機付け。
データからアクション条件付き前方モデルを学習し、その後、展開したモデルを通じてバックプロパゲーションする2段階アプローチを提案する。
トレーニングデータから離れた状態を抑制するために、モデル予測不確実性に基づく不確実性コストを導入する。
不確実性正則化付きモデル予測に基づく計画が密集交通下でのポリシー品質を向上させることを示す。
今後の研究を促進するためのデータセットと環境を公開する。

提案手法

VAEスタイルの潜在変数 z_t を用い、q_phi ポstaerior を使用してアクション条件付き前方モデル f_theta(s_1:t, a_t, z_t) を学習する。
前方モデルをホライゾン T にわたって展開し、ポリシーコスト C と不確実性コスト U を組み合わせた微分可能な損失をバックプロパゲートする。U は複数のドロップアウトマスク下での前方予測の共分散のトレースである。
U をドロップアウトベースの近似を用いて推定し、K 回の前方伝搬の分散 Var を計算しトレースを取る： U(s_hat_{t+1}) = tr(Cov[{f_theta_k(s_1:t,a_t,z_t)}_{k=1}^K]).
潜在変数 z の事後分布とドロップアウト重みが真の事後分布をどのように近似するか、ベイズ神経網に前方モデルを関連付けることができる。
2 種類の変種を定義する：MPUR (Model-Predictive Policy with Uncertainty Regularization) と MPER (Model-Predictive Policy with Expert Regularization)。
学習したダイナミクスを用いて、展開されたモデルを介して勾配を流し、展開した軌跡上で勾配降下により確率的ポリシー pi_psi を訓練する。

実験結果

リサーチクエスチョン

RQ1環境との相互作用を伴わずに、訓練データの軌道からの乖離をペナルティ付けすることで方針を学習できるか。
RQ2前方モデルベースのポリシー学習における不確実性正則化の導入は、密集交通下での性能を改善するか。
RQ3潜在変数 z の修正後事後分布がアクションへの反応性とポリシー性能にどのような影響を与えるか。
RQ4長いロールアウト時間が訓練分布と誘導される状態分布の一致に及ぼす影響はどれくらいか。

主な発見

Method	Mean Distance (m)	Success Rate (%)	Total Predicted Cost	U
Human	209.4	100.0	-	-
No action	87.3	16.2	-	-
1-step IL	73.8±7.9	7.3±4.1	-	-
SVG	17.1±4.3	0.0±0.0	-	-
VG	11.9±4.2	0.0±0.0	-	-
MPUR	171.2±4.5	74.8±3.0	-	0.4
MPUR	166.8±2.4	71.8±1.0	-	-
MPUR	162.4±2.8	69.1±1.6	-	-
MPER	70.0±8.0	4.6±2.1	-	-
MPER	157.4±0.7	63.7±0.5	-	-

MPUR および MPER ポリシーは、観測データから学習したベースライン（模倣学習および SVG/VG 系列を含む）を大幅に上回る。
不確実性コストの組込みは必須であり、それを除くと（VG）高い不確実性と現実環境での性能低下を招く。
長いロールアウト時間は、方法を問わずポリシー性能を著しく向上させ、確率的モデルと z-dropout が最も大きな効果をもたらす。
z-dropout を用いた修正後の事後分布はアクションへの反応性を改善し、確率的ダイナミクスを用いた場合にポリシーの成功を高める。
MPUR アプローチは観測データ領域内で密集交通駆動タスクにおいて人間に近い性能を達成できる。
ポリシーと環境の結果は定量的指標と定性的軌道分析で裏づけられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。