Skip to main content
QUICK REVIEW

[論文レビュー] The StreetLearn Environment and Dataset

Piotr Mirowski, Andras Banki-Horvath|arXiv (Cornell University)|Mar 4, 2019
Multimodal Machine Learning Applications参考文献 26被引用数 49
ひとこと要約

本論文は StreetLearn を紹介します。StreetLearn は Google Street View のコンテンツを用いた対話的な一人称視点ナビゲーション環境であり、複数の都市地域にまたがる配送用ナビゲーションタスクのベースラインを提供します。さらに、視覚入力を用いたエンドツーエンドのナビゲーションのためのコードとスケーラブルな評価フレームワークを公開します。

ABSTRACT

Navigation is a rich and well-grounded problem domain that drives progress in many different areas of research: perception, planning, memory, exploration, and optimisation in particular. Historically these challenges have been separately considered and solutions built that rely on stationary datasets - for example, recorded trajectories through an environment. These datasets cannot be used for decision-making and reinforcement learning, however, and in general the perspective of navigation as an interactive learning task, where the actions and behaviours of a learning agent are learned simultaneously with the perception and planning, is relatively unsupported. Thus, existing navigation benchmarks generally rely on static datasets (Geiger et al., 2013; Kendall et al., 2015) or simulators (Beattie et al., 2016; Shah et al., 2018). To support and validate research in end-to-end navigation, we present StreetLearn: an interactive, first-person, partially-observed visual environment that uses Google Street View for its photographic content and broad coverage, and give performance baselines for a challenging goal-driven navigation task. The environment code, baseline agent code, and the dataset are available at http://streetlearn.cc

研究の動機と目的

  • 静的データセットを超えた現実世界に近い環境でのエンドツーエンドの視覚ナビゲーションを動機づける。
  • StreetLearn を、Google Street View の画像に基づく対話的な一人称視点ナビゲーション環境として提示する。
  • 配送スタイルの配送人タスクと指示追従タスクを定義し、ナビゲーションポリシーを調べる。
  • 地域ベースの評価、カリキュラム、転移可能なエージェントアーキテクチャを備えたスケーラブルなベンチマークを提供します。

提案手法

  • New York City と Pittsburgh の二都市について、Google Street View パノラマから現実世界の街グラフを形成する StreetLearn を構築する。
  • 観測空間を 84x84 RGB の切り出しと、回転、移動、ズームのための5アクション離散/6アクション離散のセットとして定義する。
  • 配送員のゴール追従タスクと、絶対座標ゴールまたは言語指示に基づく指示追従ナビゲーションを含むタスクを形式化する。
  • 共有エンコーダと都市固有の LSTMs を備えた2つのニューラルアーキテクチャ(CityNav と MultiCityNav)を提案し、スケーラブルな RL のために IMPALA で訓練する。
  • ストリートグラフ上の最短経路 BFS によるオラクルベースラインを提供し、性能の上限を制約する。
  • C++ エンジン、プロトコルバッファ、Python gym風インターフェース、および TensorFlow Agents を含むコードベースを公開する。

実験結果

リサーチクエスチョン

  • RQ1現実世界に近い Street View グラフから直接視覚入力だけでエンドツーエンドのナビゲーションポリシーを学習できるか?
  • RQ2地域固有のアーキテクチャと複数の都市アーキテクチャは、異なる都市地域間でどれだけ一般化・転移できるか?
  • RQ3カリキュラム学習とゴール表現が長距離ナビゲーション能力に与える影響は?
  • RQ4模倣/グラウンド-truth 指示(オラクル)が学習済みポリシーの性能をどのように制限するか?
  • RQ5ゴール指定(絶対緯度経度 vs.ランドマーク)がナビゲーションの有効性に影響するか?

主な発見

CityOracleSingleJointTransfer
Wall Street809782745541
Union Square750721681667
Hudson River721615621601
CMU755473313355
Allegheny760669571562
South Shore7371--
  • エージェントは地域ごとに訓練された場合、New York の地域でオラクルリターンの 85%–97% を達成する。
  • Pittsburgh の地域(特に South Shore)での性能低下は、高度と道路トポロジーがカリキュラム設計に影響を与えるため。
  • 複数の地域および都市での共同訓練は、地域別訓練と比較して性能の低下が小さい。
  • 転移実験は、エンコーダ/ポリシーの部品を凍結し、ゴール LSTM のみを更新することで、新しい地域へ中程度の損失で転移できることを示す。
  • オラクル(最短経路)は、各地域で達成可能な性能の上限を提供する。
  • 少なくとも1つの地域(Union Square)で、緯度経度ターゲット表現がランドマークベースのターゲットより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。