QUICK REVIEW

[논문 리뷰] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

Junhyuk Oh, Satinder Singh|arXiv (Cornell University)|2017. 06. 15.

Reinforcement Learning in Robotics참고 문헌 39인용 수 114

한 줄 요약

본 논문은 두 단계의 계층적 RL 프레임워크를 제안한다: 미지의 서브태스크로의 일반화를 위해 아날로지 생성 목표로 매개변수화된 기술을 학습한 뒤, 지시 목록을 실행하고 새로운 대시간 규모 학습 메커니즘으로 서브태스크 업데이트를 중단/수행할 수 있는 메타 컨트롤러를 도입한다.

ABSTRACT

As a step towards developing zero-shot task generalization capabilities in reinforcement learning (RL), we introduce a new RL problem where the agent should learn to execute sequences of instructions after learning useful skills that solve subtasks. In this problem, we consider two types of generalizations: to previously unseen instructions and to longer sequences of instructions. For generalization over unseen instructions, we propose a new objective which encourages learning correspondences between similar subtasks by making analogies. For generalization over sequential instructions, we present a hierarchical architecture where a meta controller learns to use the acquired skills for executing the instructions. To deal with delayed reward, we propose a new neural architecture in the meta controller that learns when to update the subtask, which makes learning more efficient. Experimental results on a stochastic 3D domain show that the proposed ideas are crucial for generalization to longer instructions as well as unseen instructions.

연구 동기 및 목표

서브태스크 간의 아날로지를 학습하여 RL 내에서 보지 못한 서브태스크에 대한 제로샷 일반화를 개발한다.
훈련 중에 보지 못한 더 긴 지시 시퀀스에 대한 일반화를 가능하게 한다.
모든 지시를 완료한 후에만 성공이 주어지는 지연 보상 상황을 처리한다.
예상치 못한 이벤트로 인한 중단을 지원하기 위해 동적 서브태스크 업데이트를 허용한다.
미리 학습된 서브태스크를 구성하여 지시 목록을 실행하는 계층적 아키텍처를 제공한다.

제안 방법

관찰 및 작업 매개변수를 행동과 종료 신호로 매핑하는 매개변수화된 기술을 도입하여 다중 작업 정책 학습을 가능하게 한다.
유사성/비유사성/차이 제약을 포함하는 대조 손실을 이용해 작업 임베딩 공간을 형성하고 미지의 서브태스크 일반화를 가능하게 하는 아날로지-생성 목표를 제안한다.
전이 향상을 위한 선택적 정책 증류를 포함하여 A2C/GAE와 같은 배우-비평가 방법으로 매개변수화된 기술을 훈련한다.
서브태스크를 위한 생성적 기술 학습자와 지시 목록을 읽고 서브태스크 매개변수를 선택하는 메타 컨트롤러로 구성된 두 단계 아키텍처를 개발한다.
이전 서브태스크와 종료 신호를 포함하는 컨텍스트 LSTM을 갖춘 새로운 메타 컨트롤러를 설계하고, 더 큰 시간 규모에서 작동하도록 소프트 업데이트 메커니즘을 사용하는 서브태스크 업데이트기를 설계한다.
지시 시퀀스에 대한 소프트 어텐션을 통해 지시를 검색하고 이동시키는 메모리 기능이 있는 지시 업데이트기를 구현하여 서브태스크 매개변수를 한 단계 업데이트할 수 있게 한다.

실험 결과

연구 질문

RQ1제안된 아날로지-생성 목표가 매개변수화된 기술 내에서 보지 못한 서브태스크에 대한 제로샷 일반화를 가능하게 할 수 있는가?
RQ2계층적 메타 컨트롤러를 사용할 때 보지 못한 지시 시퀀스나 더 긴 시퀀스로의 일반화가 확장되는가?
RQ3지연 보상 및 중단 상황에서 서브태스크 업데이트 시점을 결정하는 메타 컨트롤러의 능력이 성능을 향상시키는가?
RQ4소프트 업데이트를 통한 큰 시간 규모에서의 작동가 학습 효율성과 예기치 않은 이벤트에 대한 반응성에 어떻게 영향을 미치는가?
RQ5제안된 방법이 지시 실행 과제에서 비계층적 기초 방법 및 다른 계층형 RL 변형보다 성능이 높은가?

주요 결과

아날로지 기반 일반화는 여러 일반화 시나리오에서 보지 못한 매개변수화된 서브태스크로의 성공적인 전이를 가능하게 한다.
메타 컨트롤러를 갖춘 계층적 아키텍처는 보이지 않는 시퀀스를 포함한 지시 시퀀스 실행에서 여러 베이스라인보다 우수한 성능을 보인다.
서브태스크 업데이트 시점(동적 시간 규모)을 학습하는 것이 매 단계마다 업데이트하거나 종료 시에만 업데이트하는 것과 비교하여 지연 보상 및 중단 상황에서 성능을 상당히 향상시킨다.
소프트 업데이트가 있는 대시간 규모 메타 컨트롤러는 고정 시간 규모 변형들보다 학습 효율성과 예기치 않은 이벤트에 대한 강건성이 더 좋다.
Minecraft 유사 3D 도메인 실험에서 이 접근법은 더 긴 지시 시퀀스와 보이지 않는 지시에도 일반화되며, 동적 업데이트 메커니즘을 사용할 때 뚜렷한 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.