[論文レビュー] The StreetLearn Environment and Dataset
本論文は StreetLearn を紹介します。StreetLearn は Google Street View のコンテンツを用いた対話的な一人称視点ナビゲーション環境であり、複数の都市地域にまたがる配送用ナビゲーションタスクのベースラインを提供します。さらに、視覚入力を用いたエンドツーエンドのナビゲーションのためのコードとスケーラブルな評価フレームワークを公開します。
Navigation is a rich and well-grounded problem domain that drives progress in many different areas of research: perception, planning, memory, exploration, and optimisation in particular. Historically these challenges have been separately considered and solutions built that rely on stationary datasets - for example, recorded trajectories through an environment. These datasets cannot be used for decision-making and reinforcement learning, however, and in general the perspective of navigation as an interactive learning task, where the actions and behaviours of a learning agent are learned simultaneously with the perception and planning, is relatively unsupported. Thus, existing navigation benchmarks generally rely on static datasets (Geiger et al., 2013; Kendall et al., 2015) or simulators (Beattie et al., 2016; Shah et al., 2018). To support and validate research in end-to-end navigation, we present StreetLearn: an interactive, first-person, partially-observed visual environment that uses Google Street View for its photographic content and broad coverage, and give performance baselines for a challenging goal-driven navigation task. The environment code, baseline agent code, and the dataset are available at http://streetlearn.cc
研究の動機と目的
- 静的データセットを超えた現実世界に近い環境でのエンドツーエンドの視覚ナビゲーションを動機づける。
- StreetLearn を、Google Street View の画像に基づく対話的な一人称視点ナビゲーション環境として提示する。
- 配送スタイルの配送人タスクと指示追従タスクを定義し、ナビゲーションポリシーを調べる。
- 地域ベースの評価、カリキュラム、転移可能なエージェントアーキテクチャを備えたスケーラブルなベンチマークを提供します。
提案手法
- New York City と Pittsburgh の二都市について、Google Street View パノラマから現実世界の街グラフを形成する StreetLearn を構築する。
- 観測空間を 84x84 RGB の切り出しと、回転、移動、ズームのための5アクション離散/6アクション離散のセットとして定義する。
- 配送員のゴール追従タスクと、絶対座標ゴールまたは言語指示に基づく指示追従ナビゲーションを含むタスクを形式化する。
- 共有エンコーダと都市固有の LSTMs を備えた2つのニューラルアーキテクチャ(CityNav と MultiCityNav)を提案し、スケーラブルな RL のために IMPALA で訓練する。
- ストリートグラフ上の最短経路 BFS によるオラクルベースラインを提供し、性能の上限を制約する。
- C++ エンジン、プロトコルバッファ、Python gym風インターフェース、および TensorFlow Agents を含むコードベースを公開する。
実験結果
リサーチクエスチョン
- RQ1現実世界に近い Street View グラフから直接視覚入力だけでエンドツーエンドのナビゲーションポリシーを学習できるか?
- RQ2地域固有のアーキテクチャと複数の都市アーキテクチャは、異なる都市地域間でどれだけ一般化・転移できるか?
- RQ3カリキュラム学習とゴール表現が長距離ナビゲーション能力に与える影響は?
- RQ4模倣/グラウンド-truth 指示(オラクル)が学習済みポリシーの性能をどのように制限するか?
- RQ5ゴール指定(絶対緯度経度 vs.ランドマーク)がナビゲーションの有効性に影響するか?
主な発見
| City | Oracle | Single | Joint | Transfer |
|---|---|---|---|---|
| Wall Street | 809 | 782 | 745 | 541 |
| Union Square | 750 | 721 | 681 | 667 |
| Hudson River | 721 | 615 | 621 | 601 |
| CMU | 755 | 473 | 313 | 355 |
| Allegheny | 760 | 669 | 571 | 562 |
| South Shore | 737 | 1 | - | - |
- エージェントは地域ごとに訓練された場合、New York の地域でオラクルリターンの 85%–97% を達成する。
- Pittsburgh の地域(特に South Shore)での性能低下は、高度と道路トポロジーがカリキュラム設計に影響を与えるため。
- 複数の地域および都市での共同訓練は、地域別訓練と比較して性能の低下が小さい。
- 転移実験は、エンコーダ/ポリシーの部品を凍結し、ゴール LSTM のみを更新することで、新しい地域へ中程度の損失で転移できることを示す。
- オラクル(最短経路)は、各地域で達成可能な性能の上限を提供する。
- 少なくとも1つの地域(Union Square)で、緯度経度ターゲット表現がランドマークベースのターゲットより優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。