QUICK REVIEW

[논문 리뷰] Option Discovery in Hierarchical Reinforcement Learning using Spatio-Temporal Clustering

Aravind S. Lakshminarayanan, Ramnandan Krishnamurthy|arXiv (Cornell University)|2016. 05. 17.

Reinforcement Learning in Robotics참고 문헌 26인용 수 27

한 줄 요약

이 논문은 상태 공간의 준안정 영역을 식별하기 위해 PCCA+ 스펙트럴 클러스터링을 사용하는 스펙트럴 클러스터링을 활용한 계층적 강화학습 프레임워크를 제안한다. 전이 및 보상 구조를 활용하여 산업에 종속되지 않는 옵션을 구성하며, 소속도 함수에 대한 오르막 탐색을 통해 다양한 작업 간에 효율적으로 재사용할 수 있도록 한다. 이는 표현 기반 상태 집합화를 통해 큰 상태 공간에서도 효과적으로 작동한다.

ABSTRACT

This paper introduces an automated skill acquisition framework in reinforcement learning which involves identifying a hierarchical description of the given task in terms of abstract states and extended actions between abstract states. Identifying such structures present in the task provides ways to simplify and speed up reinforcement learning algorithms. These structures also help to generalize such algorithms over multiple tasks without relearning policies from scratch. We use ideas from dynamical systems to find metastable regions in the state space and associate them with abstract states. The spectral clustering algorithm PCCA+ is used to identify suitable abstractions aligned to the underlying structure. Skills are defined in terms of the sequence of actions that lead to transitions between such abstract states. The connectivity information from PCCA+ is used to generate these skills or options. These skills are independent of the learning task and can be efficiently reused across a variety of tasks defined over the same model. This approach works well even without the exact model of the environment by using sample trajectories to construct an approximate estimate. We also present our approach to scaling the skill acquisition framework to complex tasks with large state spaces for which we perform state aggregation using the representation learned from an action conditional video prediction network and use the skill acquisition framework on the aggregated state space.

연구 동기 및 목표

사전 작업 지식이나 전문가 시범 없이 계층적 강화학습에서 스킬 자동 탐색을 수행하는 것.
기본 MDP의 구조와 일치하는 준안정 영역을 탐지하여 상태 공간 내 자연스러운 추상화를 식별하는 것.
효율적인 추상 상태 간 이동을 가능하게 하는 재사용 가능한, 작업 독립적인 옵션을 생성하는 것.
표현 학습과 상태 집합화를 활용하여 Atari 게임과 같은 큰 상태 공간에 프레임워크를 확장하는 것.
전이 역학과 보상 구조를 추상화 과정에 통합하여 옵션 의미의 향상

제안 방법

샘플 트레이잭터리에서 유도된 전이 행렬에 PCCA+ 스펙트럴 클러스터링을 적용하여 상태 공간을 준안정 영역으로 분할하고, 이를 추상 상태로 정의한다.
지수 가중치 기법을 통해 전이 행렬에 보상 구조를 통합하여 기능적 추상화(예: 목표 상태)를 구조적 추상화와 함께 반영한다.
도착 추상 상태의 소속도 함수에 대한 오르막 탐색을 통해 옵션 정책을 구성함으로써 추가 학습이 필요 없도록 한다.
큰 상태 공간 환경을 위한 저차원이고 시공간적으로 의미 있는 잠재 표현을 학습하기 위해 사전 훈련된 동작 조건 비디오 예측 네트워크를 사용하여 상태 집합화를 적용한다.
집합화된 상태 공간을 PCCA+ 클러스터링 파이프라인에 입력하여 Seaquest와 같은 복잡한 환경으로의 확장성을 확보한다.
PCCA+에서 유도된 연결성 정보를 활용하여 추상 상태 간의 유효한 옵션 전이를 정의함으로써 구조적 일관성을 확보한다.

실험 결과

연구 질문

RQ1스펙트럴 클러스터링을 사용하여 모델 없이 샘플 트레이잭터리에서 준안정 영역를 자동으로 식별할 수 있는가?
RQ2구조적(전이 기반) 추상화와 기능적(보상 기반) 추상화를 함께 옵션 탐색 과정에 통합할 수 있는가?
RQ3결과로 도출된 옵션은 동일한 기본 MDP를 공유하는 여러 작업 간에 재학습 없이 재사용 가능한가?
RQ4고차원 관측이 있는 Atari 게임과 같은 큰 상태 공간에 프레임워크를 어떻게 확장할 수 있는가?
RQ5보상 구조를 통합할 경우, 탐색된 옵션의 의미적 일관성과 작업 효율성이 어느 정도 향상되는가?

주요 결과

3방실 도메인에서 PCCA+는 보상 통합 여부에 관계없이 각 방에 해당하는 세 개의 추상 상태를 성공적으로 식별하였다.
보상 구조를 통합함으로써 목표 타일에 해당하는 네 번째 추상 상태가 도출되어 기능적 추상화 탐지가 가능함을 입증하였다.
옵션 정책은 도착 추상 상태의 소속도 함수에 대한 오르막 탐색을 통해 생성되었으며, 추가 학습 없이도 방 간 정확한 이동을 달성하였다.
Seaquest 환경에서는 동작 조건 비디오 예측 네트워크로부터 학습된 표현을 활용하여 프레임워크가 효과적으로 확장되었다.
산소를 보충하기 위해 수면으로 복귀하는 데 사용된 학습된 옵션은 소속도 함수 시각화를 통해 의미적으로 명확하고 시각적으로 해석 가능하였다.
프레임워크는 추상 상태 간 전이로 계획을 단순화함으로써 샘플 효율성과 다양한 작업 간 일반화 능력을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.