QUICK REVIEW

[논문 리뷰] Near-Optimal Representation Learning for Hierarchical Reinforcement Learning

Ofir Nachum, Shixiang Gu|arXiv (Cornell University)|2018. 10. 02.

Reinforcement Learning in Robotics참고 문헌 36인용 수 63

한 줄 요약

이 논문은 목표 조건 계층적 RL에서 표현에 대한 부분 최적성 측정치를 도입하고, 표현 품질과 정책 성능 간의 경계를 도출하며, 거의 최적의 계층적 정책을 얻는 실용적 학습 목표를 제시합니다.

ABSTRACT

We study the problem of representation learning in goal-conditioned hierarchical reinforcement learning. In such hierarchical structures, a higher-level controller solves tasks by iteratively communicating goals which a lower-level policy is trained to reach. Accordingly, the choice of representation -- the mapping of observation space to goal space -- is crucial. To study this problem, we develop a notion of sub-optimality of a representation, defined in terms of expected reward of the optimal hierarchical policy using this representation. We derive expressions which bound the sub-optimality and show how these expressions can be translated to representation learning objectives which may be optimized in practice. Results on a number of difficult continuous-control tasks show that our approach to representation learning yields qualitatively better representations as well as quantitatively better hierarchical policies, compared to existing methods (see videos at https://sites.google.com/view/representation-hrl).

연구 동기 및 목표

부분 작업을 위한 상태 압축과 표현력 간의 균형을 맞추기 위해 목표 조건 계층적 RL에서 표현 학습의 동기를 부여한다.
주어진 표현을 사용한 최적 계층적 정책의 보상을 기반으로 형식적 부분 최적성 측정을 정의한다.
표현 선택이 계층적 정책 성능에 어떻게 영향을 미치는지 보여주는 경계(bound)를 도출하고 이를 실용적 학습 목표와 연결한다.
부분 최적성을 한정하는 표현 학습 목표와 보조 역모델(inverse model)을 제안하며, 실용적으로 최적화할 수 있다.

제안 방법

상위 레벨이 학습된 표현 공간에서 목표를 선택하고 하위 레벨이 해당 목표를 달성하기 위해 행동하는 두 수준의 계층적 정책을 모델링한다.
상태-목표 쌍을 하위 레벨 행동으로 변환하는 매핑 Psi를 도입하고 완전히 표현력이 있는 기준선과의 간격에 대해 부분 최적성을 분석한다.
SubOpt(Psi)와 실제 동역학과 표현 기반 동역학 간의 발산을 연결하는 이론적 경계(정리 1, 3, 주장 2, 4)를 도출한다.
다음 상태 분포의 실제 분포와 학습된 에너지 기반 모델 K 간의 KL/발산을 기반으로 한 표현 학습 목표를 거리 함수 D를 통해 정의한다.
부분 최적성을 한정하기 위해 표현 f와 보조 모델 varphi를 최적화하는 실용적 학습 목표(식 11–15)를 개발한다.
해당 경계에 대응하는 경계와 함께 프레임워크를 시간적 추상화(c>1) 및 일반화된 정책(식 9)으로 확장한다.

실험 결과

연구 질문

RQ1고정된 하위 레벨 매핑 Psi를 사용할 때 표현 f의 선택이 계층적 정책의 부분 최적성에 어떤 영향을 미치는가?
RQ2표현에 의해 유발된 제약으로 인한 보상 손실을 상한으로 제시하고 이 경계를 실용적인 표현 학습 목표로 번역할 수 있는가?
RQ3시간적 추상화(c > 1)가 부분 최적성 경계와 학습 가능한 표현에 어떤 영향을 미치는가?
RQ4상호 정보 기반 목표와 제시된 표현 학습 경계 사이의 관계는 무엇인가?
RQ5학습된 표현이 전체 상태나 오라클 표현을 사용하는 것과 비교하여 도전적인 연속 제어 작업에서 근사 최적에 가까운 성능을 달성할 수 있는가?

주요 결과

원리 있는 경 Bound를 갖는 표현 학습 목표는 계층적 정책의 수익이 경계 내의 오차로 최적 정책에 근접하도록 한다.
이 프레임워크는 표현 학습을 직접적으로 부분 최적성과 연결하여 상태-목표 매핑의 정보 손실을 줄이는 실용적 학습 목표를 가능하게 한다.
연속 제어 작업에 대한 실험 결과는 이미지 관측을 포함한 시나리오에서 기준선 대비 질적 및 정량적 이점을 보여준다.
학습된 표현은 작업 관련 좌표(예: 블록 위치)를 다른 요소들보다 강조하는 경향이 있으며 보상 구조와 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.