Skip to main content
QUICK REVIEW

[논문 리뷰] Why Does Hierarchy (Sometimes) Work So Well in Reinforcement Learning?

Ofir Nachum, Haoran Tang|arXiv (Cornell University)|2019. 09. 23.
Reinforcement Learning in Robotics참고 문헌 40인용 수 51
한 줄 요약

이 논문은 HRL을 실증적으로 분석하고, 대부분의 이점이 더 쉬운 정책 학습이나 의미론적 행동 표현보다 향상된 탐험에서 비롯된다는 것을 발견한다. 그런 다음 HRL 성능과 일치하는 비계층적 탐험 방법을 제안한다.

ABSTRACT

Hierarchical reinforcement learning has demonstrated significant success at solving difficult reinforcement learning (RL) tasks. Previous works have motivated the use of hierarchy by appealing to a number of intuitive benefits, including learning over temporally extended transitions, exploring over temporally extended periods, and training and exploring in a more semantically meaningful action space, among others. However, in fully observed, Markovian settings, it is not immediately clear why hierarchical RL should provide benefits over standard "shallow" RL architectures. In this work, we isolate and evaluate the claimed benefits of hierarchical RL on a suite of tasks encompassing locomotion, navigation, and manipulation. Surprisingly, we find that most of the observed benefits of hierarchy can be attributed to improved exploration, as opposed to easier policy learning or imposed hierarchical structures. Given this insight, we present exploration techniques inspired by hierarchy that achieve performance competitive with hierarchical RL while at the same time being much simpler to use and implement.

연구 동기 및 목표

  • 복합 작업에서 계층적 강화 학습(HRL)이 도움이 되는 이유를 연구하도록 동기 부여한다.
  • Locomotion, navigation, and manipulation任务 전반에서 계층 구조의 주장되는 이점을 격리하고 평가한다.
  • 훈련 시 시간적으로 연장된 행동, 탐험 또는 의미론적 표현으로부터 개선이 오는지 결정한다.
  • HRL의 탐험 전략에서 영감을 받은 비계층적 방법이 탐험 전략을 활용하여 HRL 성능과 맞먹을 수 있는지 평가한다.

제안 방법

  • 두 가지 HRL 패러다임(옵션 프레임워크와 목표 조건 HIRO)을 네 가지 locomotion/navigation/manipulation 작업(AntMaze, AntPush, AntBlock, AntBlockMaze)에서 실증적으로 평가한다.
  • 훈련 지평선(c_train)과 탐험 지평선(c_expl)을 분리하여 시간 추상화 효과를 격리한다.
  • 다층 보상으로 학습된 비계층적 에이전트와 HRL이 수집한 데이터로 학습된 쉐도우(shadow) 에이전트를 비교한다.
  • HRL에서 영감을 받은 두 가지 탐험 전략(Explore & Exploit, Switching Ensemble)을 명시적 계층 구조를 사용하지 않고 제안하고 테스트한다.
  • HRL 성능에서 탐험과 훈련 표현 간의 분리를 실험으로 확인한다.

실험 결과

연구 질문

  • RQ1시간적으로 확장된 학습이나 탐험이 고려된 작업에서 HRL의 실증적 이점을 설명하는가?
  • RQ2고수준 액션 표현의 이점이 HRL 성능에 필수적인가?
  • RQ3비계층적 에이전트가 HRL과 같은 탐험이나 다단계 보상을 받으면 성능을 맞출 수 있는가?
  • RQ4HRL에서 영감을 받은 탐험 전략이 비계층적 에이전트를 HRL 수준의 성능으로 개선하는가?

주요 결과

  • 대부분의 HRL 이점은 더 쉬운 훈련이나 의미론적 행동 표현보다 개선된 탐험에서 기인한다.
  • 탐험을 통제하면 다단계 보상이 HRL의 학습 이점의 많은 부분을 재현할 수 있어 고수준 행동 표현의 중요성이 낮아진다.
  • 시간적으로 확장된 탐험이나 목표 지향 탐험이 장치에서 HRL 성능에 맞먹는 비계층적 에이전트를 만들 수 있다.
  • 두 가지 비계층적 탐험 방법(Explore & Exploit, Switching Ensemble)이 HRL과 유사한 성능을 달성해 탐험이 핵심 요인임을 강조한다.
  • 명시적 계층 구조는 강한 성능에 필수적이지 않으며 HRL에서 영감을 받은 탐험 전략이 테스트 환경에서 충분하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.