QUICK REVIEW

[論文レビュー] Learning to Navigate in Complex Environments

Piotr Mirowski, Razvan Pascanu|arXiv (Cornell University)|Nov 11, 2016

Reinforcement Learning in Robotics被引用数 366

ひとこと要約

本論文は、深度予測とループ閉塞という補助タスクを用いて、3D迷路内のナビゲーションをエンドツーエンドの強化学習エージェントで学習させ、データ効率と性能を向上させ、動的なゴール設定で人間に近い結果を達成する。

ABSTRACT

Learning to navigate in complex environments with dynamic elements is an important milestone in developing AI agents. In this work we formulate the navigation question as a reinforcement learning problem and show that data efficiency and task performance can be dramatically improved by relying on additional auxiliary tasks leveraging multimodal sensory inputs. In particular we consider jointly learning the goal-driven reinforcement learning problem with auxiliary depth prediction and loop closure classification tasks. This approach can learn to navigate from raw sensory input in complicated 3D mazes, approaching human-level performance even under conditions where the goal location changes frequently. We provide detailed analysis of the agent behaviour, its ability to localise, and its network activity dynamics, showing that the agent implicitly learns key navigation abilities.

研究の動機と目的

SLAM/MSM の明示的なマッピングを伴わず、ナビゲーションを強化学習問題として学習させる動機付け。
多モーダル入力を活用する補助タスクを導入してデータ効率と性能を向上させる。
補助的な深度予測とループ閉塞分類が、動的な迷路でのエージェントのナビゲーションに役立つことを示す。
補助タスクが内部表現と定位能力にどのように影響するかを分析する。
ナビゲーション課題中にメモリと表現学習がどのように出現するかについて洞察を提供する。

提案手法

畳み込みエンコーダの後にLSTMベースのメモリを組み合わせたActor-Critic（A3C）を用いる。
RGB入力から低解像度の深度マップを再構成する補助的な深度予測を組み込む。
統合された2D速度情報を用いて再訪問を検出するループ閉塞予測を組み込む。
2つの深度定式化: 畳み込み特徴量から深度を予測する（D1）または上位LSTM層から（D2）; ループ閉塞損失（L）と比較。
RL損失、深度損失（βd1、βd2）、およびループ閉塞損失（βl）の加重結合で学習。
静的およびランダムなゴール配置を含む5つの3D迷路環境で評価、メモリと入力を変えたNav A3Cアーキテクチャを使用。

実験結果

リサーチクエスチョン

RQ1補助タスクはエンドツーエンドのナビゲーション方針におけるデータ効率と性能を改善できるか。
RQ2自己 supervisioned 補助タスクとしての深度予測は、幾何学と障害物回避の学習に役立つか。
RQ3動的な迷路におけるナビゲーションで、ループ閉塞予測はより良い空間定位とメモリ統合を促進するか。
RQ4どの補助タスク設定（D1、D2、L、または組み合わせ）が最も良いナビゲーション性能と定位をもたらすか。
RQ5速度・行動・報酬入力を含むスタック型LSTMによるメモリアーキテクチャが、複雑な迷路でのナビゲーションにどう影響するか。

主な発見

Maze	Agent	AUC	Score	% Human	Goals	Position Acc	Latency 1:>1	Score
I-Maze	FF A3C*	75.5	98	-	94/100	42.2	9.3s:9.0s	102
I-Maze	LSTM A3C*	112.4	244	-	100/100	87.8	15.3s:3.2s	203
I-Maze	Nav A3C*+ D1 L	169.7	266	-	100/100	68.5	10.7s:2.7s	252
I-Maze	Nav A3C+ D2	203.5	268	-	100/100	62.3	8.8s:2.5s	269
I-Maze	Nav A3C+ D1D2L	199.9	258	-	100/100	61.0	9.9s:2.5s	251
Static 1	FF A3C*	41.3	79	83	100/100	64.3	8.8s:8.7s	84
Static 1	LSTM A3C*	44.3	98	103	100/100	88.6	6.1s:5.9s	110
Static 1	Nav A3C+ D2	104.3	119	125	100/100	95.4	5.9s:5.4s	122
Static 1	Nav A3C+ D1D2L	102.3	116	122	100/100	94.5	5.9s:5.4s	123
Static 2	FF A3C*	35.8	81	47	100/100	55.6	24.2s:22.9s	111
Static 2	LSTM A3C*	46.0	153	91	100/100	80.4	15.5s:14.9s	155
Static 2	Nav A3C+ D2	157.6	200	116	100/100	94.0	10.9s:11.0s	202
Static 2	Nav A3C+ D1D2L	156.1	192	112	100/100	92.6	11.1s:12.0s	192
Random Goal 1	FF A3C*	37.5	61	57.5	88/100	51.8	11.0:9.9s	64
Random Goal 1	LSTM A3C*	46.6	65	61.3	85/100	51.1	11.1s:9.2s	66
Random Goal 1	Nav A3C+ D2	71.1	96	91	100/100	85.5	14.0s:7.1s	91
Random Goal 1	Nav A3C+ D1D2L	64.2	81	81	81/100	83.7	11.5s:7.2s	74.6
Random Goal 2	FF A3C*	50.0	69	40.1	93/100	30.0	27.3s:28.2s	77
Random Goal 2	LSTM A3C*	37.5	57	32.6	74/100	33.4	21.5s:29.7s	51.3
Random Goal 2	Nav A3C+ D1L	62.5	90	52	90/100	51.0	17.9s:18.4s	106
Random Goal 2	Nav A3C+ D2	82.1	103	59	79/100	72.4	15.4s:15.0s	109
Random Goal 2	Nav A3C+ D1D2L	78.5	91	53	74/100	81.5	15.9s:16.0s	102

補助タスクは学習を大幅に加速し、迷路全体で性能を向上させ、特に静的な迷路で顕著。
ポリシーのLSTMからの深度予測（D2）は、強力なナビゲーション性能と定位の利点をもたらす。
この設定では深度予測の分類定式化が回帰より収束が速い。
ループ閉塞予測は深度を補完し、速度統合と空間推論を助ける。組み合わせ損失は単一タスクよりしばしば優れる。
補助損失を持つNav A3Cは静的な迷路で人間レベルの性能に近づき、動的/ランダムゴール迷路でも顕著なスコアを達成する。
内部表現から訓練された位置デコーダは、タスク報酬の増加と相関する定位の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。