[논문 리뷰] Multi-Level Discovery of Deep Options
Discovery of Deep Options (DDO) 는 시연으로부터 매개변수화된 옵션을 학습하여 다계층 계층 구조를 구축하고, RL 에이전트를 보강하여 학습을 가속화하며, Atari RAM, gridworld 및 수술 데이터에서 시연으로 입증됩니다.
Augmenting an agent's control with useful higher-level behaviors called options can greatly reduce the sample complexity of reinforcement learning, but manually designing options is infeasible in high-dimensional and abstract state spaces. While recent work has proposed several techniques for automated option discovery, they do not scale to multi-level hierarchies and to expressive representations such as deep networks. We present Discovery of Deep Options (DDO), a policy-gradient algorithm that discovers parametrized options from a set of demonstration trajectories, and can be used recursively to discover additional levels of the hierarchy. The scalability of our approach to multi-level hierarchies stems from the decoupling of low-level option discovery from high-level meta-control policy learning, facilitated by under-parametrization of the high level. We demonstrate that using the discovered options to augment the action space of Deep Q-Network agents can accelerate learning by guiding exploration in tasks where random actions are unlikely to reach valuable states. We show that DDO is effective in adding options that accelerate learning in 4 out of 5 Atari RAM environments chosen in our experiments. We also show that DDO can discover structure in robot-assisted surgical videos and kinematics that match expert annotation with 72% accuracy.
연구 동기 및 목표
- RL에서 샘플 복잡도 감소를 동기화하기 위해 에이전트를 고수준 옵션으로 보강하는 것을 목표로 한다.
- 시연으로부터 심층 옵션의 계층 구조를 발견하는 확장 가능한 방법을 개발한다.
- 다계층 발견을 가능하게 하기 위해 저수준 옵션 발견과 고수준 메타 제어를 분리한다.
- Deep Q-Network 에이전트에 통합될 때 발견된 옵션이 학습을 가속함을 보여준다.
- Atari RAM, gridworld, 및 로봇 수술을 포함한 다양한 도메인에 적용 가능성을 시연한다.
제안 방법
- 시연으로부터 계층 구조를 추론하기 위해 Hierarchical Behavioral Cloning(HBC)을 제안한다.
- 저수준 옵션과 고수준 메타 제어 η 를 가진 이층 생성 모델을 수식화한다.
- 기댓-그래디언트(EG) 알고리즘을 사용하여 주변 사후확률을 계산하고 옵션 및 메타 제어 매개변수를 업데이트한다.
- 발견을 옵션 특이 사후확률로 가중되는 소프트 클러스터링 문제로 취급한다.
- 수준을 분리하기 위해 간소화된(종종 균일한) 메타 제어 정책으로 수준을 반복적으로 발견하여 더 깊은 계층 구조로 확장한다.
- 발견된 옵션으로 DQN의 행동 공간을 보강하여 RL 가속을 시연한다.
실험 결과
연구 질문
- RQ1DDO가 시연으로부터 유용한 심층 옵션을 신뢰성 있게 발견할 수 있는가?
- RQ2저수준 옵션 발견을 고수준 메타 제어와 분리하는 것이 확장 가능한 다계층 계층 구조를 가능하게 하는가?
- RQ3발견된 옵션이 Deep Q-Network 에이전트에 추가될 때 학습을 가속하는가?
- RQ4DDO가 수술 작업과 같은 인간 시연에서 해석 가능한 구조를 드러낼 수 있는가?
주요 결과
- DDO는 여러 도메인에서 발견된 옵션으로 행동 공간을 보강하여 RL을 가속한다.
- Atari RAM 실험에서 다섯 개 중 네 개의 게임에서 DDO로 발견된 옵션을 사용해 학습 가속이 유의하게 나타났다.
- 그리드월드 실험에서 이층 계층(H2)은 단일 계층(H1)보다 더 큰 이득을 제공한다.
- 로봇 수술 데이터에서 발견된 옵션은 전문가 경계 일치에서 72%의 정확도를 달성했으며(무작위 14% 대비).
- 표현력이 덜한 메타 제어 매개변수화가 일부 설정에서 매우 표현적인 것과 비슷하거나 더 나은 수행을 보이며, 확장성에 도움을 준다.
- 자가 생성 시연에서 발견된 옵션도 탐색을 이끄는 덕분에 여전히 더 빠른 학습에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.