QUICK REVIEW

[논문 리뷰] HIRL: Hierarchical Inverse Reinforcement Learning for Long-Horizon Tasks with Delayed Rewards

Sanjay Krishnan, Animesh Garg|arXiv (Cornell University)|2016. 04. 21.

Reinforcement Learning in Robotics참고 문헌 33인용 수 27

한 줄 요약

HIRL는 전문가 시연를 통해 국소 선형성의 변화를 커널 함수를 통해 식별함으로써 하위 작업 구조를 학습하는 계층적 역강화학습 프레임워크를 제안한다. 이 하위 작업들을 바탕으로 구조화되고 순차적인 보상 함수를 구성하며, 기존 MaxEnt IRL 대비 최대 6배 빠른 수렴 속도를 달성한다. 특히 부분 관측 가능성과 노이즈 있는 동역학 조건에서도 성능이 뛰어나다.

ABSTRACT

Reinforcement Learning (RL) struggles in problems with delayed rewards, and one approach is to segment the task into sub-tasks with incremental rewards. We propose a framework called Hierarchical Inverse Reinforcement Learning (HIRL), which is a model for learning sub-task structure from demonstrations. HIRL decomposes the task into sub-tasks based on transitions that are consistent across demonstrations. These transitions are defined as changes in local linearity w.r.t to a kernel function. Then, HIRL uses the inferred structure to learn reward functions local to the sub-tasks but also handle any global dependencies such as sequentiality. We have evaluated HIRL on several standard RL benchmarks: Parallel Parking with noisy dynamics, Two-Link Pendulum, 2D Noisy Motion Planning, and a Pinball environment. In the parallel parking task, we find that rewards constructed with HIRL converge to a policy with an 80% success rate in 32% fewer time-steps than those constructed with Maximum Entropy Inverse RL (MaxEnt IRL), and with partial state observation, the policies learned with IRL fail to achieve this accuracy while HIRL still converges. We further find that that the rewards learned with HIRL are robust to environment noise where they can tolerate 1 stdev. of random perturbation in the poses in the environment obstacles while maintaining roughly the same convergence rate. We find that HIRL rewards can converge up-to 6x faster than rewards constructed with IRL.

연구 동기 및 목표

지연 보상이 있는 장수명 강화학습 작업에서 효율적인 정책을 학습하는 데 도전한다.
보상 신호가 흐리거나 지연될 경우 표준 IRL의 비효율성을 해결하기 위해 보상 증가가 가능한 하위 작업으로 작업을 분해한다.
완전한 시스템 식별이 필요 없이 소수의 전문가 시연로부터 계층적 작업 구조를 학습한다.
하위 작업 구조를 활용해 부분 상태 관측 및 환경 노이즈 조건에서도 강건하고 빠른 정책 학습을 가능하게 한다.
상태공간 확장을 통해 국소 하위 작업 역학과 글로벌 순차적 종속성을 모두 반영하는 보상 함수를 구성한다.

제안 방법

커널 함수를 사용해 다양한 시범에서 일관된 국소 선형성의 변화를 탐지함으로써 하위 작업을 식별하고, 전체 시스템 식별을 피한다.
각 하위 작업을 정규 분포를 가진 선형 MDP로 모델링하고, 정지 규칙과 국소 보상 함수를 포함한다.
실행 순서를 보장하기 위해 활성 하위 작업 지표를 상태공간에 추가하여 순차적 종속성을 인코딩한다.
확장된 상태공간에서 역강화학습(IRL)을 적용하여 현재 상태와 활성 하위 작업을 반영한 보상 함수를 학습한다.
상태가 활성 하위 작업를 나타내는 고수준 MDP로 복합 작업을 수식화하며, 전이 확률은 하위 작업의 결과에 의존한다.
비교적 비선형성, 확률적 요소, 부분 관측 가능성이 있는 환경에서 성능을 평가하기 위해 벤치마크 환경에 프레임워크를 적용한다.

실험 결과

연구 질문

RQ1완전한 시스템 식별 없이도 전문가 시범으로부터 하위 작업 구조를 신뢰성 있게 추론할 수 있는가?
RQ2하위 작업 분할을 통한 계층적 보상 설계는 지연 보상이 있는 장수명 RL에서 학습 효율성을 어떻게 향상시키는가?
RQ3HIRL는 지연 보상이 있는 표준 IRL 및 RL 대비 수렴 속도와 성공률에서 얼마나 향상되는가?
RQ4부분 상태 관측 및 환경 노이즈 조건에서 HIRL은 기준 방법에 비해 얼마나 강건한가?
RQ5HIRL가 학습한 계층적 구조는 국소 보상 최적화를 가능하게 하면서도 글로벌 순차적 일관성을 유지할 수 있는가?

주요 결과

HIRL는 최대 6배 빠른 학습 수렴 속도를 기록했으며, 특히 Parallel Parking 및 Pinball 환경에서 가장 빠른 수렴 속도를 보였다.
전체 상태 관측 조건에서 Parallel Parking 작업에서 HIRL는 MaxEnt IRL 대비 32% 적은 시간 단위 내에 80% 성공률에 도달했다.
위치 및 방향 정보만 제공되는 부분 상태 관측 조건에서도 HIRL는 수렴을 유지했고, IRL은 수렴 실패를 겪었다.
장애물 위치에 대해 표준편차 1배 이내의 무작위 변동이 가해져도 HIRL의 학습된 보상 함수는 유사한 수렴 속도를 유지했다.
두 개의 방이 있는 환경(두 방)를 제외한 모든 벤치마크에서 HIRL는 AUC 기반 수렴 속도와 도달 가능한 최대 보상에서 다른 방법들을 능가했다.
정확한 지식이 있는 도메인에서는 HIRL가 완벽한 사전 지식이 있을 때 얻을 수 있는 최적 보상의 10% 이내의 보상을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.