QUICK REVIEW

[논문 리뷰] Hierarchical Reinforcement Learning with Timed Subgoals

Nico Gürtler, Dieter Büchler|arXiv (Cornell University)|2021. 12. 06.

Reinforcement Learning in Robotics인용 수 8

한 줄 요약

이 논문은 동적 환경에서 샘플 효율적인 학습을 향상시키기 위해 고수준 정책이 하위 목표와 정확한 시간 제약 조건을 동시에 지정할 수 있도록 하는 계층적 강화 학습(Hierarchical Reinforcement Learning) 기반의 HiTS(Hierarchical Reinforcement Learning with Timed Subgoals)를 제안한다. 시간 제약 조건이 부여된 하위 목표와 후행 행동 재표기( hindsight action relabeling)를 결합함으로써 전이 시간의 비정적 특성을 제거하여 학습을 안정화시키며, 하위 정책의 성능 향상에도 불구하고 동시 학습이 가능하도록 한다. 이는 이전에 실패한 도전적인 동적 환경에서 최신 기준(SOTA) 기준보다 뛰어난 성능을 보인다.

ABSTRACT

Hierarchical reinforcement learning (HRL) holds great potential for sample-efficient learning on challenging long-horizon tasks. In particular, letting a higher level assign subgoals to a lower level has been shown to enable fast learning on difficult problems. However, such subgoal-based methods have been designed with static reinforcement learning environments in mind and consequently struggle with dynamic elements beyond the immediate control of the agent even though they are ubiquitous in real-world problems. In this paper, we introduce Hierarchical reinforcement learning with Timed Subgoals (HiTS), an HRL algorithm that enables the agent to adapt its timing to a dynamic environment by not only specifying what goal state is to be reached but also when. We discuss how communicating with a lower level in terms of such timed subgoals results in a more stable learning problem for the higher level. Our experiments on a range of standard benchmarks and three new challenging dynamic reinforcement learning environments show that our method is capable of sample-efficient learning where an existing state-of-the-art subgoal-based HRL method fails to learn stable solutions.

연구 동기 및 목표

하위 정책의 성능 향상으로 인해 전이 시간이 비정적(Non-stationary)이 되는 상황에서 발생하는 계층적 강화 학습(HRL)의 불안정성을 해결한다.
외부 동역학(예: 이동하는 물체)이 작업 실행 시간에 영향을 주는 동적 환경에서, 계층 수준 간 동시 학습을 가능하게 한다.
기존의 하위 목표 기반 HRL 방법은 정적 환경을 가정하지만, 하위 정책의 빠른 수행으로 전이 시간이 변화할 경우 실패하는 한계를 극복한다.
이동하는 목표물이나 시간에 민감한 상호작용을 포함한 장기적인 시간 간격 작업에 대해 안정적이고 샘플 효율적인 학습 프레임워크를 제공한다.
시간 제약 조건이 부여된 하위 목표를 통해 고수준 정책이 시간적 추상화를 명시적으로 고려할 수 있도록 하여, 강건성과 수렴성 향상을 달성한다.

제안 방법

목표 상태(하위 목표)와 그 도달을 위한 목표 시간 간격을 함께 지정하는 시간 제약 조건이 부여된 하위 목표를 도입하여, 고수준 정책이 전이 시간에 대해 명시적인 제어를 가능하게 한다.
고수준 정책이 환경과 상호작용하는 방식을 반-마르코프 결정 과정(Semi-Markov Decision Process, SMDP)으로 공식화함으로써, 시간 제약 조건으로 인해 전이 시간이 더 이상 확률적(Stochastic)이 아니게 된다.
시간 제약 조건이 부여된 하위 목표와 후행 행동 재표기를 결합하여 하위 목표 공간 내의 비정적 특성을 숨기며, 이는 비정책 기반 학습과 안정적인 학습을 가능하게 한다.
두 수준의 HRL 아키텍처를 사용: 고수준 정책이 시간 제약 조건이 부여된 하위 목표를 선택하고, 저수준 정책이 지정된 시간 창 내에서 하위 목표에 도달하도록 행동을 실행한다.
저수준 정책에 대해 하위 목표까지의 거리 기반으로 조밀한 보상 형상화를 적용하며, 시간 최소화를 우선시하면서도 시간 제약 조건을 준수하도록 한다.
저수준 정책이 하위 목표에 도달하지 못할 경우 고수준 정책에 보상 페널티를 적용하여, 실현 불가능한 하위 목표 선택을 억제한다.

실험 결과

연구 질문

RQ1하위 목표에 명시적인 시간 제약 조건을 부여함으로써, 전이 시간이 학습 도중 변화하는 동적 환경에서 계층적 강화 학습의 안정성을 향상시킬 수 있는가?
RQ2시간 제약 조건이 부여된 하위 목표와 후행 행동 재표기를 결합하면, 고수준 정책이 경험하는 효과적 SMDP의 전이 시간 분포에서 비정적 특성이 제거되는가?
RQ3HiTS는 이전의 하위 목표 기반 HRL 방법이 실패하는 장기적인 시간 간격 작업에 대해 안정적이고 샘플 효율적인 학습을 달성할 수 있는가?
RQ4기존의 하위 목표 기반 HRL과 비교했을 때, 시간 제약 조건이 부여된 하위 목표의 사용이 고수준 정책의 수렴성과 샘플 효율성에 어떤 영향을 미치는가?
RQ5HiTS는 정밀한 시간 조율이 필요한 새로운 동적 환경으로 일반화될 수 있는 정도는 어느 정도인가?

주요 결과

HiTS는 기존의 최신 기준(SOTA) 하위 목표 기반 HRL 기준이 수렴하지 못하는 세 가지의 새로운 동적 벤치마크 환경(예: 테니스 볼 회수, 동적 내비게이션)에서 안정적인 정책을 학습하는 데 성공했다.
기존 HRL 방법과 비교해 표준 벤치마크(예: AntMaze, HalfCheetah)에서 성능의 분산이 현저히 낮아져 학습 안정성이 향상됨을 나타낸다.
후행 행동 재표기와 시간 제약 조건이 부여된 하위 목표를 조합함으로써, 고수준 정책이 경험하는 SMDP 전이 시간 분포의 비정적 특성이 효과적으로 제거되었으며, 계층 수준 간 동시 학습이 안정적으로 가능해졌다.
HalfCheetah 및 AntMaze와 같은 표준 벤치마크에서 HiTS는 기존의 최신 기준(SOTA) 방법과 비교해 성능이 유사하거나 뛰어나며, 수렴 속도가 빠르고 샘플 복잡도가 낮다.
소량의 비정적 특성이 남아 있는 상황(예: 평가 전이 시점에서의 비정적 특성)에서도 알고리즘이 강건하게 유지되어 이상적인 가정을 초월한 실용적 타당성을 입증했다.
실험 결과, HiTS의 고수준 정책는 이동하는 공과 같은 동적 환경 요소와의 시간 조율을 명시적으로 고려하여 하위 목표의 시간을 조절함으로써 정밀한 간섭을 수행하는 것을 학습하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.