QUICK REVIEW

[논문 리뷰] Mapping State Space using Landmarks for Universal Goal Reaching

Zhiao Huang, Fangchen Liu|arXiv (Cornell University)|2019. 01. 01.

Reinforcement Learning in Robotics인용 수 14

한 줄 요약

이 논문은 경험에서 최대 거리 샘플링을 사용하여 랜드마크 상태를 선택하는 계층적 강화 학습 방법을 제안한다. 이는 희박한 보상이 존재하는 큰 MDP에서 탐색과 가치 함수 추정을 향상시키기 위해 동적 고수준 지ap을 구축한다. 이 방법은 훈련 초반에 장거리 목표에 도달할 수 있도록 하며, 도전적인 탐색 작업에서 표준 강화 학습 알고리즘을 능가한다.

ABSTRACT

An agent that has well understood the environment should be able to apply its skills for any given goals, leading to the fundamental problem of learning the Universal Value Function Approximator (UVFA). A UVFA learns to predict the cumulative rewards between all state-goal pairs. However, empirically, the value function for long-range goals is always hard to estimate and may consequently result in failed policy. This has presented challenges to the learning process and the capability of neural networks. We propose a method to address this issue in large MDPs with sparse rewards, in which exploration and routing across remote states are both extremely challenging. Our method explicitly models the environment in a hierarchical manner, with a high-level dynamic landmark-based map abstracting the visited state space, and a low-level value network to derive precise local decisions. We use farthest point sampling to select landmark states from past experience, which has improved exploration compared with simple uniform sampling. Experimentally we showed that our method enables the agent to reach long-range goals at the early training stage, and achieve better performance than standard RL algorithms for a number of challenging tasks.

연구 동기 및 목표

희박한 보상이 존재하는 큰 MDP에서 장거리 목표의 가치 함수 추정 문제를 해결한다.
복잡한 환경에서 원거리 상태 간의 탐색과 라우팅을 향상시킨다.
에이전트가 모든 상태-목표 쌍에 대해 일반화 가능한 유니버설 가치 함수를 학습할 수 있도록 한다.
고수준 랜드마크 추상화와 저수준 정책 정밀화를 결합한 확장 가능한 방법을 개발한다.

제안 방법

과거 경험에서 최대 거리 샘플링을 사용해 방문된 상태공간의 다양하고 전략적으로 분포된 커버리지가 보장되는 랜드마크 상태를 선택한다.
환경의 구조를 요약하는 고수준 동적 랜드마크 기반 지도를 구축하여 장거리 탐색을 안내한다.
현재 상태와 목표에 기반해 정밀한 국소적 결정을 계산하는 저수준 가치 네트워크를 유지한다.
랜드마크 지도를 저수준 정책과 통합하여 계층적 의사결정을 가능하게 한다: 고수준 계획은 랜드마크로, 저수준 실행은 목표로.
계층적 구조를 활용해 먼 상태-목표 쌍 간의 가치 함수 일반화를 향상시킨다.
랜드마크 지도를 훈련 중에 동적으로 업데이트하면서 표준 강화 학습 알고리즘을 사용해 시스템을 종단 간 훈련한다.

실험 결과

연구 질문

RQ1랜드마크 기반 추상화는 희박한 보상이 존재하는 큰 MDP에서 탐색과 가치 함수 추정을 향상시킬 수 있는가?
RQ2최대 거리 샘플링은 장거리 목표 도달을 위한 랜드마크 선택에서 균일 샘플링보다 우수한가?
RQ3계층적 접근은 표준 강화 학습 방법에 비해 훈련 초반에 더 먼 목표에 도달할 수 있도록 할 수 있는가?
RQ4랜드마크 지도는 다양한 상태-목표 쌍 간의 유니버설 가치 함수의 일반화를 어느 정도 향상시키는가?

주요 결과

제안된 방법은 표준 강화 학습 알고리즘에 비해 훈련 과정에서 장거리 목표에 훨씬 이르게 도달할 수 있도록 한다.
최대 거리 샘플링은 더 나은 랜드마크 분포를 제공하고 균일 샘플링 대비 탐색 효율성을 향상시킨다.
랜드마크 추상화를 통한 계층적 접근은 희박한 보상이 존재하는 다양한 도전적인 탐색 작업에서 성능을 향상시킨다.
이 방법은 먼 상태-목표 쌍 간의 가치 함수 일반화를 더 잘 달성하여 유니버설 가치 함수 학습을 지원한다.
실험 결과, 다양한 환경에서 기준 강화 학습 알고리즘에 비해 일관된 성능 향상이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.