QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments

Jingwei Zhang, Jost Tobias Springenberg|arXiv (Cornell University)|Dec 16, 2016

Reinforcement Learning in Robotics参考文献 32被引用数 33

ひとこと要約

本論文は、ロボットナビゲーションのための継承特徴に基づく深層強化学習アルゴリズムの後続版を提案し、類似した迷路型環境間での高速な転移学習を、生のセンサ入力のみを用いて実現する。共通の継承特徴表現を学習することで、以前に解決されたタスクからの知識を転送し、新しい環境において学習時間を最大90％短縮しつつ、明示的な局所化、マッピング、計画なしにパフォーマンスを維持する。

ABSTRACT

In this paper we consider the problem of robot navigation in simple maze-like environments where the robot has to rely on its onboard sensors to perform the navigation task. In particular, we are interested in solutions to this problem that do not require localization, mapping or planning. Additionally, we require that our solution can quickly adapt to new situations (e.g., changing navigation goals and environments). To meet these criteria we frame this problem as a sequence of related reinforcement learning tasks. We propose a successor feature based deep reinforcement learning algorithm that can learn to transfer knowledge from previously mastered navigation tasks to new problem instances. Our algorithm substantially decreases the required learning time after the first task instance has been solved, which makes it easily adaptable to changing environments. We validate our method in both simulated and real robot experiments with a Robotino and compare it to a set of baseline methods including classical planning-based navigation.

研究の動機と目的

明示的な局所化、マッピング、計画に依存せずに迷路型環境におけるロボットナビゲーションの課題に対処すること。
転移学習を用いて、新しいナビゲーション目標や環境への迅速な適応を可能にすること。
以前のタスクからの知識を保持しつつ、新しいタスクを効率的に学習できる強化学習手法を開発すること。
視覚的および深度センサ入力を持つシミュレーテッドおよび実世界のロボット実験を通じて、このアプローチを検証すること。
継承特徴が生のセンサデータからの有効な表現学習を支援できることを示すこと。

提案手法

転移学習を可能にするために、ナビゲーションを関連する強化学習タスクの連鎖として定式化する。
継承特徴（SFs）を用いて、タスク間で状態価値関数の共有表現を学習し、ダイナミクスと報酬形状の分離を実現する。
深層ニューラルネットワークを継承特徴と統合し、生の視覚的および深度センサ入力を処理する。
継承特徴を用いて状態価値を予測する深層Qネットワークを訓練し、新しいタスクにおける効率的なファインチューニングを可能にする。
ソース環境からの事前学習済みSF表現を、ターゲット環境での学習初期化に活用し、再訓練を最小限に抑える。
SF表現上で回帰器をファインチューニングし、エージェントが暗黙的に自己局所化能力を学習していることを検証する。

実験結果

リサーチクエスチョン

RQ1継承特徴は、類似した環境間でのロボットナビゲーションのための深層強化学習における高速な転移学習を可能にするか？
RQ2継承特徴表現は、生のセンサ入力からの自己局所化とポリシー汎用性を有効にサポートするか？
RQ3本手法は、標準的なDQNおよび計画ベースのベースラインと比較して、サンプル効率性および学習速度において優れているか？
RQ4視覚的または深度センサデータのみを用いて、シミュレーション環境と実世界環境との間で、どの程度の知識転送が達成できるか？
RQ5SF-RLアプローチは、以前に解決されたタスクのパフォーマンスを維持しながら、新しいナビゲーション目標や環境への適応を可能にするか？

主な発見

SF-RL手法は、事前学習モデルから新しい環境への転移時に学習時間を90％短縮した。転移後、Map3/Map4で50/50の成功率を達成した。
実世界実験では、シミュレーテッドモデルからのファインチューニングで、約8時間の実際の経験（2Hzで60,000ステップ）で満足できるパフォーマンスに到達した。
ポーズ回帰器が保持された軌道で高い正確性を達成したことで、継承特徴表現が自己局所化に十分な情報を保持していることが確認された。
シミュレーテッド深度画像から実世界の深度データへの転移は、センサノイズやリアルリズムの違いにもかかわらず、顕著なパフォーマンス向上をもたらした。
本手法は、シミュレーテッドおよび実世界の両設定で、ベースラインDQNおよび教師ありアノテーション学習を上回ったが、特にサンプル効率性において顕著であった。
本手法は、シミュレーションと現実の間でのドメインシフトに対して頑健であり、ロボットナビゲーションの実機（Robotino）への展開を、広範な再トレーニングなしに可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。