QUICK REVIEW

[論文レビュー] The StreetLearn Environment and Dataset

Piotr Mirowski, Andras Banki-Horvath|arXiv (Cornell University)|Mar 4, 2019

Multimodal Machine Learning Applications参考文献 26被引用数 49

ひとこと要約

本論文は StreetLearn を紹介します。StreetLearn は Google Street View のコンテンツを用いた対話的な一人称視点ナビゲーション環境であり、複数の都市地域にまたがる配送用ナビゲーションタスクのベースラインを提供します。さらに、視覚入力を用いたエンドツーエンドのナビゲーションのためのコードとスケーラブルな評価フレームワークを公開します。

ABSTRACT

Navigation is a rich and well-grounded problem domain that drives progress in many different areas of research: perception, planning, memory, exploration, and optimisation in particular. Historically these challenges have been separately considered and solutions built that rely on stationary datasets - for example, recorded trajectories through an environment. These datasets cannot be used for decision-making and reinforcement learning, however, and in general the perspective of navigation as an interactive learning task, where the actions and behaviours of a learning agent are learned simultaneously with the perception and planning, is relatively unsupported. Thus, existing navigation benchmarks generally rely on static datasets (Geiger et al., 2013; Kendall et al., 2015) or simulators (Beattie et al., 2016; Shah et al., 2018). To support and validate research in end-to-end navigation, we present StreetLearn: an interactive, first-person, partially-observed visual environment that uses Google Street View for its photographic content and broad coverage, and give performance baselines for a challenging goal-driven navigation task. The environment code, baseline agent code, and the dataset are available at http://streetlearn.cc

研究の動機と目的

静的データセットを超えた現実世界に近い環境でのエンドツーエンドの視覚ナビゲーションを動機づける。
StreetLearn を、Google Street View の画像に基づく対話的な一人称視点ナビゲーション環境として提示する。
配送スタイルの配送人タスクと指示追従タスクを定義し、ナビゲーションポリシーを調べる。
地域ベースの評価、カリキュラム、転移可能なエージェントアーキテクチャを備えたスケーラブルなベンチマークを提供します。

提案手法

New York City と Pittsburgh の二都市について、Google Street View パノラマから現実世界の街グラフを形成する StreetLearn を構築する。
観測空間を 84x84 RGB の切り出しと、回転、移動、ズームのための5アクション離散/6アクション離散のセットとして定義する。
配送員のゴール追従タスクと、絶対座標ゴールまたは言語指示に基づく指示追従ナビゲーションを含むタスクを形式化する。
共有エンコーダと都市固有の LSTMs を備えた2つのニューラルアーキテクチャ（CityNav と MultiCityNav）を提案し、スケーラブルな RL のために IMPALA で訓練する。
ストリートグラフ上の最短経路 BFS によるオラクルベースラインを提供し、性能の上限を制約する。
C++ エンジン、プロトコルバッファ、Python gym風インターフェース、および TensorFlow Agents を含むコードベースを公開する。

実験結果

リサーチクエスチョン

RQ1現実世界に近い Street View グラフから直接視覚入力だけでエンドツーエンドのナビゲーションポリシーを学習できるか？
RQ2地域固有のアーキテクチャと複数の都市アーキテクチャは、異なる都市地域間でどれだけ一般化・転移できるか？
RQ3カリキュラム学習とゴール表現が長距離ナビゲーション能力に与える影響は？
RQ4模倣/グラウンド-truth 指示（オラクル）が学習済みポリシーの性能をどのように制限するか？
RQ5ゴール指定（絶対緯度経度 vs.ランドマーク）がナビゲーションの有効性に影響するか？

主な発見

City	Oracle	Single	Joint	Transfer
Wall Street	809	782	745	541
Union Square	750	721	681	667
Hudson River	721	615	621	601
CMU	755	473	313	355
Allegheny	760	669	571	562
South Shore	737	1	-	-

エージェントは地域ごとに訓練された場合、New York の地域でオラクルリターンの 85%–97% を達成する。
Pittsburgh の地域（特に South Shore）での性能低下は、高度と道路トポロジーがカリキュラム設計に影響を与えるため。
複数の地域および都市での共同訓練は、地域別訓練と比較して性能の低下が小さい。
転移実験は、エンコーダ/ポリシーの部品を凍結し、ゴール LSTM のみを更新することで、新しい地域へ中程度の損失で転移できることを示す。
オラクル（最短経路）は、各地域で達成可能な性能の上限を提供する。
少なくとも1つの地域（Union Square）で、緯度経度ターゲット表現がランドマークベースのターゲットより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。