QUICK REVIEW

[論文レビュー] One-Shot Reinforcement Learning for Robot Navigation with Interactive Replay

Jake Bruce, Niko Sünderhauf|arXiv (Cornell University)|Nov 28, 2017

Reinforcement Learning in Robotics参考文献 30被引用数 53

ひとこと要約

本論文は、実世界の単一の走行からの対話型リプレイを用いたロボットナビゲーションのオフライン学習を提案し、固定の事前学習済み視覚エンコーダと確率的観測拡張を組み合わせて、ファインチューニングなしでゼロショット転送を達成する。

ABSTRACT

Recently, model-free reinforcement learning algorithms have been shown to solve challenging problems by learning from extensive interaction with the environment. A significant issue with transferring this success to the robotics domain is that interaction with the real world is costly, but training on limited experience is prone to overfitting. We present a method for learning to navigate, to a fixed goal and in a known environment, on a mobile robot. The robot leverages an interactive world model built from a single traversal of the environment, a pre-trained visual feature encoder, and stochastic environmental augmentation, to demonstrate successful zero-shot transfer under real-world environmental variations without fine-tuning.

研究の動機と目的

対話型ワールドモデルを介して単一環境の走行から学習することで、実世界での相互作用を減らす。
小さな学習セットへの過適合を防ぐために、固定された事前学習済み視覚エンコーダを活用する。
確率的観測で訓練を拡張して、一般化と転送を改善する。
頑健で転送可能なナビゲーション性能のためにブートストラップドQ学習を評価する。

提案手法

姿勢グラフを構築し、対話型リプレイバッファを作成することで、単一の走行から仮想的な訓練環境を構築する。
固定の2048次元ResNet-50視覚エンコーダを用いて、1タイムステップごとに8192次元の観測ベクトルを生成する。
真の姿勢の周りの分布からサンプリングして、確率的観測を作成する。
NQヘッドとNw個の並列ワーカーを持つブートストラップドダブルデュエリングQ学習アーキテクチャを訓練する。
学習と転送性能を評価するために、A2Cとシングルヘッドn-step Q学習と比較する。）

実験結果

リサーチクエスチョン

RQ11つの走行からのオフライン対話型リプレイを用いて、固定目標へのナビゲーションをファインチューニングなしで学習できるか？
RQ2事前学習済みの視覚特徴と確率的観測は、未知の環境変動への学習と転送にどう影響するか？
RQ3このロボティクスナビゲーション設定で、ブートストラップドQ学習は他のRL手法より優れているか？
RQ4複数のQヘッドと並列ワーカーが訓練の安定性と性能に与える影響は何か？

主な発見

ブートストラップドQ学習が試験したRL手法の中で最良の性能を達成した。その他のアルゴリズムはタスクを安定して解くことに失敗した。
環境を確率的観測で拡張することは、訓練および検証の性能を著しく向上させる。
訓練中に固定された事前学習済み視覚エンコーダを使用することは、転送を強化し計算要件を削減する。
確率的観測は検証環境への転送を改善し、未知の変動への一般化を示す。
事前学習済み特徴と確率的拡張を組み合わせると、ゼロサンプリングからの訓練と転送の成果が大幅に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。