QUICK REVIEW

[논문 리뷰] Hierarchical Reinforcement Learning for Zero-shot Generalization with Subtask Dependencies

Sungryull Sohn, Junhyuk Oh|arXiv (Cornell University)|2018. 07. 19.

Domain Adaptation and Few-Shot Learning인용 수 30

한 줄 요약

이 논문은 종속성과 보상으로 정의된 새로운 하위작업 그래프를 가진 환경에서 제로샷 일반화를 위한 계층적 강화학습 프레임워크인 신경 하위작업 그래프 솔버(NEURAL SUBTASK GRAPH SOLVER, NSGS)를 제안한다. 다양한 그래프 보상 전파 정책을 통해 미분 가능하게 보상 전파를 수행하는 사전 훈련과 액터-크리틱을 통한 미세조정을 통해 NSGS는 장기적인 하위작업 종속성을 고려해 추론할 수 있으며, 효율성 면에서 MCTS를 능가하면서도 새로운 2차원 시각 도메인에서 거의 최적의 성능을 달성한다.

ABSTRACT

We introduce a new RL problem where the agent is required to generalize to a previously-unseen environment characterized by a subtask graph which describes a set of subtasks and their dependencies. Unlike existing hierarchical multitask RL approaches that explicitly describe what the agent should do at a high level, our problem only describes properties of subtasks and relationships among them, which requires the agent to perform complex reasoning to find the optimal subtask to execute. To solve this problem, we propose a neural subtask graph solver (NSGS) which encodes the subtask graph using a recursive neural network embedding. To overcome the difficulty of training, we propose a novel non-parametric gradient-based policy, graph reward propagation, to pre-train our NSGS agent and further finetune it through actor-critic method. The experimental results on two 2D visual domains show that our agent can perform complex reasoning to find a near-optimal way of executing the subtask graph and generalize well to the unseen subtask graphs. In addition, we compare our agent with a Monte-Carlo tree search (MCTS) method showing that our method is much more efficient than MCTS, and the performance of NSGS can be further improved by combining it with MCTS.

연구 동기 및 목표

복잡한 종속성을 가진 새로운 하위작업 그래프를 고려해야 하는 계층적 강화학습에서 제로샷 일반화 문제를 해결하기 위해.
고수준 행동이 명시되지 않고 하위작업 속성과 종속성만 제시되는 새로운 강화학습 문제를 정의하기 위해.
비용이 많이 들거나 시뮬레이션을 요구하지 않는 확장 가능하고 실시간 적용이 가능한 방법을 개발하여, 동적인 환경에서의 실용적 구현을 가능하게 하기 위해.
장기적인 하위작업 종속성, 실행 비용, 관측 맥락을 고려해 암시적으로 복잡한 추론을 수행할 수 있도록 하는 것.

제안 방법

하위작업 그래프를 임bedding하고 종속성을 인코딩하기 위해 재귀-역순-재귀 신경망(R3NN)을 사용하는 신경 하위작업 그래프 솔버(NSGS)를 제안한다.
하위작업 그래프를 통해 보상을 미분 가능하게 전파하는 비모수적 기반의 기울기 정책인 그래프 보상 전파(GRProp)를 도입하여 NSGS를 사전 훈련한다.
GRProp를 사용해 즉각적인 보상이 음수일지라도 장기적인 보상 잠재력이 높은 하위작업을 향해 NSGS를 이끄는 지도 신호를 생성한다.
특정 관측과 환경 동역학에 적응하기 위해 사전 훈련된 NSGS를 액터-크리틱 강화학습 방법으로 미세조정한다.
NSGS를 몬테카를로 트리 서치(MCTS)와 결합하여 성능을 더욱 향상시키며, NSGS의 효율성을 유지하면서 MCTS의 계획 기능을 활용한다.

실험 결과

연구 질문

RQ1강화학습 에이전트가 명시적인 작업 수준의 지도 없이도 복잡한 종속성과 보상 구조를 가진 새로운 하위작업 그래프에 일반화할 수 있는가?
RQ2그래프 보상 전파가 계층적 하위작업 실행 정책을 학습하기 위한 사전 훈련 신호로서 얼마나 효과적인가?
RQ3샘플 효율성과 추론 속도 면에서 NSGS가 MCTS와 같은 검색 기반 기준 모델을 얼마나 능가하는가?
RQ4NSGS는 방해 요소, 지연 보상, 향후 진전을 저해하는 음성 하위작업을 포함한 하위작업 그래프를 얼마나 잘 처리하는가?

주요 결과

NSGS는 제로샷 일반화에서 플레이그라운드 도메인에서 평균 성능 0.820, 마이닝 도메인에서 0.785를 기록하며 무작위 및 기준 방법에 비해 뚜렷이 뛰어난 성능을 보였다.
사전 훈련 없이 처음부터 학습한 NSGS-스クラ치 에이전트는 평균 성능 0.046에 그치며, GRProp를 통한 사전 훈련이 학습에 필수적임을 입증했다.
특히 방해 요소나 지연 보상이 있는 그래프에서, NSGS는 장기적 영향을 고려할 수 있는 능력 덕분에 탐욕 기반 기준 및 GRProp보다 우수한 성능을 보였다.
NSGS는 MCTS보다 계산적으로 더 효율적이며, 실시간 구현에 적합한 추론 시간을 확보하면서도 거의 최적의 성능을 달성했다.
NSGS를 MCTS와 조합하면 성능이 더욱 향상되었으며, 이는 NSGS가 검색 효율성을 향상시키는 강력한 정책 사전 조건을 제공한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.