QUICK REVIEW

[논문 리뷰] Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning

Tianmin Shu, Caiming Xiong|arXiv (Cornell University)|2017. 12. 20.

Robot Manipulation and Learning참고 문헌 14인용 수 57

한 줄 요약

본 논문은 상위 정책을 통해 이전에 학습한 기술을 재사용하고, 재사용 시점이나 새로운 기술 학습 시점을 안내하기 위해 확률적 시간 문법을 보조하는 계층적이며 언어 기반의 다중 작업 RL 프레임워크를 제시하며, Minecraft/Malmo 작업에서 이를 입증한다.

ABSTRACT

Learning policies for complex tasks that require multiple different skills is a major challenge in reinforcement learning (RL). It is also a requirement for its deployment in real-world scenarios. This paper proposes a novel framework for efficient multi-task reinforcement learning. Our framework trains agents to employ hierarchical policies that decide when to use a previously learned policy and when to learn a new skill. This enables agents to continually acquire new skills during different stages of training. Each learned task corresponds to a human language description. Because agents can only access previously learned skills through these descriptions, the agent can always provide a human-interpretable description of its choices. In order to help the agent learn the complex temporal dependencies necessary for the hierarchical policy, we provide it with a stochastic temporal grammar that modulates when to rely on previously learned skills and when to execute new skills. We validate our approach on Minecraft games designed to explicitly test the ability to reuse previously learned skills while simultaneously learning new skills.

연구 동기 및 목표

계층화와 언어 기초를 통해 학습된 기술을 재사용함으로써 효율적인 다중 작업 강화 학습을 촉진한다.
작업 축적 커리큘럼을 통해 학습 단계 전반에 걸쳐 지속적으로 기술을 축적 가능하게 한다.
정책과 계획을 인간 언어로 설명함으로써 해석 가능성을 제공한다.
작업 간 시간적 의존성을 모델링하기 위해 확률적 시간 문법을 도입한다.
Minecraft 환경에서 학습 효율성과 일반화 향상을 입증한다.

제안 방법

기저 정책(이전 단계), 지시 정책, 보강된 평면 정책, 그리고 기저 대 새 행동을 결정하는 전환 정책의 네 부분으로 구성된 계층적 정책을 도입한다.
해석 가능성과 기초화를 강화하기 위해 작업을 인간 지시로 표현한다.
베이스 스킬과 새로운 스킬 간의 시간적 전이를 사전으로 모델링하기 위해 확률적 시간 문법(STG)을 활용한다.
강점-비판(A2C)으로 정책을 학습하고 양성 에피소드로부터 STG 확률을 추정한다.
각 단계에서 기존 기술의 재사용을 포함한 기저 기술 습득에 이어 새로운 기술 습득(새로운 기술 학습)을 두 단계 커리큘럼으로 사용한다.
탐색과 계획 실행을 안내하기 위해 STG 사전을 전환 및 지시 결정에 통합한다.

실험 결과

연구 질문

RQ1다중 작업 RL 에이전트가 이전에 학습한 기술을 재사용하여 새로운 기술을 습득하는 계층적 정책을 학습할 수 있는가?
RQ2작업을 인간의 언어로 기초화하는 것이 정책의 해석 가능성과 계획 구성에 도움이 되는가?
RQ3확률적 시간 문법이 작업 간 시간적 의존성을 모델링함으로써 효율성과 정확성을 향상시키는가?
RQ4두 단계 커리큘럼(베이스 먼저, 그 다음 새로운 기술)이 점진적으로 확장되는 작업 세트에서 학습 효율성과 일반화에 어떤 영향을 미치는가?

주요 결과

전체 계층적 모델은 작업 세트 전반에서 평탄한 베이스라인보다 더 빠른 수렴과 더 높은 평균 보상을 달성한다.
모델은 더 큰 방과 방해 요소가 있을 때도 단순한 정책에 비해 일반화가 향상되는 것을 보여준다.
계층적 계획은 인간 지시를 사용하여 상위 정책이 하위 기술을 어떻게 구성하는지 시각적으로 해석할 수 있다.
두 단계 커리큘럼은 학습을 가속화하고, 커리큘럼 효과는 더 빠른 단계 전이와 더 높은 최종 성능으로 나타난다.
절단 실험에서 STG 제거, 교대 업데이트 또는 전환 가치 함수 제거는 성능 저하를 초래하여 이러한 구성요소의 중요성을 시사한다.
정량적 결과(Table 1)는 Find x, Get x, Put x, Stack x 과제에서 작은 방과 큰 방 모두에서 전체 모델의 성공률이 더 높음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.