[論文レビュー] Learning to Navigate in Cities Without a Map
本論文は StreetLearn を紹介します。StreetLearn は Google Street View を用いた都市規模のビジュアルナビゲーション環境であり、複数の都市を横断してナビゲートを学習し、新しい都市へ転移できる双経路の、ゴール条件付き強化学習アーキテクチャを提案します。
Navigating through unstructured environments is a basic capability of intelligent creatures, and thus is of fundamental interest in the study and development of artificial intelligence. Long-range navigation is a complex cognitive task that relies on developing an internal representation of space, grounded by recognisable landmarks and robust visual processing, that can simultaneously support continuous self-localisation ("I am here") and a representation of the goal ("I am going there"). Building upon recent research that applies deep reinforcement learning to maze navigation problems, we present an end-to-end deep reinforcement learning approach that can be applied on a city scale. Recognising that successful navigation relies on integration of general policies with locale-specific knowledge, we propose a dual pathway architecture that allows locale-specific features to be encapsulated, while still enabling transfer to multiple cities. We present an interactive navigation environment that uses Google StreetView for its photographic content and worldwide coverage, and demonstrate that our learning method allows agents to learn to navigate multiple cities and to traverse to target destinations that may be kilometres away. The project webpage http://streetlearn.cc contains a video summarising our research and showing the trained agent in diverse city environments and on the transfer task, the form to request the StreetLearn dataset and links to further resources. The StreetLearn environment code is available at https://github.com/deepmind/streetlearn
研究の動機と目的
- 地図や GPS なしで、実世界かつ都市規模の環境に対するエンドツーエンドの深層強化学習によるナビゲーションを動機づける。
- 長距離のゴール指向ナビゲーションを研究するため、Street View ベースの対話型環境を作成する。
- 一般的なナビゲーション方針と都市固有の知識のバランスを取る、モジュール化されたロケール固有のニューラルアーキテクチャを提案する。
- 複数の都市で遠距離目標への学習ナビゲーションを実証し、未踏の地域への転移を可能にする。
提案手法
- Street Learn を、パノラマの Street View ベースのグラフとしてナビゲーション環境として用いる。
- ゴールを、固定セットのランドマークへの距離のソフトマックスを用いたランドマークとの近接度で表現する。
- デュアルLSTM経路を用いてロケール固有と一般的なナビゲーション知識を分離する、GoalNav、CityNav、MultiCityNav の3つのアーキテクチャを提案する。
- IMPALA でエージェントを訓練し、学習を支援する補助的なヘディング予測タスクを用いる。
- カリキュラム学習を用い、都市区域に応じて目標距離を500 m から最大で3.5–5 km まで徐々に拡大し、報酬整形を任意とする。
- 共有エンコーダとポリシーLSTM を固定したまま、新しい都市経路を訓練するモジュール式転送プロトコルを提供する。
実験結果
リサーチクエスチョン
- RQ1Street View の視覚入力のみを用いて、エンドツーエンドの強化学習が長距離の実世界ナビゲーションを学習できるか?
- RQ2デュアルパスアーキテクチャは、単一都市のベースラインと比較して、学習効率と複数都市間の転移を改善するか?
- RQ3複数の都市で訓練されたナビゲーションエージェントが、以前に見たことのない都市へどの程度転移できるか?
- RQ4カリキュラム学習と報酬整形が、都市規模ナビゲーションの学習速度と頑健性にどのように影響するか?
主な発見
- デュアルLSTM経路を用いた CityNav は、単一路線の GoalNav ベースラインよりも、ニューヨーク、ロンドン、パリに跨る宅配便ナビゲーションタスクで、より高く安定した性能を達成する。
- DualPath アーキテクチャは未見の都市領域への転移を可能にし、共有部品を再学習せずに転移用の新しいロケール固有経路を訓練できる。
- カリキュラム学習は、到達可能なゴール距離を徐々に拡大することにより、報酬整形のみの場合より学習効率と頑健性を大幅に向上させる。
- 保持外れたゴールでは、保持外れた領域のサイズが大きくなると性能は低下するが、エージェントは依然としてゴールへ向かって移動する。ランドマークに基づく目標表現の近似的な一般化を示唆する。
- 転移実験は、複数の都市で事前学習してターゲット都市へ転移すると、複数都市同時訓練の性能に近づくことを示し、4都市事前訓練が強い転移結果をもたらす。
- 視覚とポリシー間のスキップ接続を削除すると単一都市の訓練が害されるが、多都市転移時にはインターフェースを正則化する可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。