Skip to main content
QUICK REVIEW

[論文レビュー] Mapping State Space using Landmarks for Universal Goal Reaching

Zhiao Huang, Fangchen Liu|arXiv (Cornell University)|Jan 1, 2019
Reinforcement Learning in Robotics被引用数 14
ひとこと要約

本論文は、経験から遠方の点抽出法を用いてランドマーク状態を選択する階層的強化学習手法を提案し、大規模なMDPにおけるスパarsな報酬環境において探索性と価値関数推定を向上させる動的で高レベルの地図を構築する。この手法により、訓練の初期段階で長距離の目標に到達できるようになり、挑戦的なナビゲーションタスクにおいて標準的なRLアルゴリズムを上回る性能を発揮する。

ABSTRACT

An agent that has well understood the environment should be able to apply its skills for any given goals, leading to the fundamental problem of learning the Universal Value Function Approximator (UVFA). A UVFA learns to predict the cumulative rewards between all state-goal pairs. However, empirically, the value function for long-range goals is always hard to estimate and may consequently result in failed policy. This has presented challenges to the learning process and the capability of neural networks. We propose a method to address this issue in large MDPs with sparse rewards, in which exploration and routing across remote states are both extremely challenging. Our method explicitly models the environment in a hierarchical manner, with a high-level dynamic landmark-based map abstracting the visited state space, and a low-level value network to derive precise local decisions. We use farthest point sampling to select landmark states from past experience, which has improved exploration compared with simple uniform sampling. Experimentally we showed that our method enables the agent to reach long-range goals at the early training stage, and achieve better performance than standard RL algorithms for a number of challenging tasks.

研究の動機と目的

  • スパars報酬を伴う大規模なMDPにおける長距離目標の価値関数推定の課題に取り組む。
  • 複雑な環境における遠く離れた状態間の探索とルーティングを改善する。
  • エージェントがすべての状態-目標ペアに一般化可能なユニバーサル価値関数を学習できるようにする。
  • 高レベルのランドマーク抽象化と低レベルのポリシー精錬を組み合わせたスケーラブルな手法を開発する。

提案手法

  • 過去の経験から遠方の点抽出法を用いてランドマーク状態を選択し、訪問済みの状態空間を多様かつ戦略的に分布させる。
  • 環境の構造を要約する高レベルの動的ランドマークベース地図を構築し、長距離ナビゲーションを支援する。
  • 現在の状態と目標に基づいて正確な局所的意思決定を計算する低レベル価値ネットワークを維持する。
  • ランドマーク地図と低レベルポリシーを統合し、階層的意思決定を可能にする:高レベル計画でランドマークを指向し、低レベルでターゲットへ実行する。
  • 階層的構造を活用して、遠く離れた状態-目標ペア間での価値関数一般化を改善する。
  • ランドマーク地図を訓練中に動的に更新しながら、標準的な強化学習アルゴリズムを用いてエンドツーエンドでシステムを訓練する。

実験結果

リサーチクエスチョン

  • RQ1ランドマークベースの抽象化は、スパars報酬を伴う大規模なMDPにおける探索性と価値関数推定を改善できるか?
  • RQ2遠方の点抽出法は、長距離目標到達のためのランドマーク選択において一様抽出法を上回るか?
  • RQ3階層的アプローチにより、標準的なRL手法と比較してエージェントが訓練の初期段階で遠く離れた目標に到達できるようになるか?
  • RQ4ランドマーク地図は、多様な状態-目標ペアにわたるユニバーサル価値関数の一般化をどの程度向上させるか?

主な発見

  • 提案手法により、標準的なRLアルゴリズムと比較して、訓練の初期段階で長距離の目標に顕著に早く到達できるようになった。
  • 遠方の点抽出法は、一様抽出法よりも優れたランドマーク分布を実現し、探索効率が向上した。
  • ランドマーク抽象化を用いた階層的アプローチは、スパars報酬を伴う多様な挑戦的なナビゲーションタスクで性能を向上させた。
  • 本手法は、遠く離れた状態-目標ペア間での価値関数一般化が向上し、ユニバーサル価値関数の学習を支援した。
  • 実験結果から、複数の環境においてベースラインRLアルゴリズムを一貫して上回る性能向上が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。