Skip to main content
QUICK REVIEW

[논문 리뷰] Zero-Shot Task Generalization with Multi-Task Deep Reinforcement Learning

Junhyuk Oh, Satinder Singh|arXiv (Cornell University)|2017. 06. 15.
Reinforcement Learning in Robotics참고 문헌 39인용 수 114
한 줄 요약

본 논문은 두 단계의 계층적 RL 프레임워크를 제안한다: 미지의 서브태스크로의 일반화를 위해 아날로지 생성 목표로 매개변수화된 기술을 학습한 뒤, 지시 목록을 실행하고 새로운 대시간 규모 학습 메커니즘으로 서브태스크 업데이트를 중단/수행할 수 있는 메타 컨트롤러를 도입한다.

ABSTRACT

As a step towards developing zero-shot task generalization capabilities in reinforcement learning (RL), we introduce a new RL problem where the agent should learn to execute sequences of instructions after learning useful skills that solve subtasks. In this problem, we consider two types of generalizations: to previously unseen instructions and to longer sequences of instructions. For generalization over unseen instructions, we propose a new objective which encourages learning correspondences between similar subtasks by making analogies. For generalization over sequential instructions, we present a hierarchical architecture where a meta controller learns to use the acquired skills for executing the instructions. To deal with delayed reward, we propose a new neural architecture in the meta controller that learns when to update the subtask, which makes learning more efficient. Experimental results on a stochastic 3D domain show that the proposed ideas are crucial for generalization to longer instructions as well as unseen instructions.

연구 동기 및 목표

  • 서브태스크 간의 아날로지를 학습하여 RL 내에서 보지 못한 서브태스크에 대한 제로샷 일반화를 개발한다.
  • 훈련 중에 보지 못한 더 긴 지시 시퀀스에 대한 일반화를 가능하게 한다.
  • 모든 지시를 완료한 후에만 성공이 주어지는 지연 보상 상황을 처리한다.
  • 예상치 못한 이벤트로 인한 중단을 지원하기 위해 동적 서브태스크 업데이트를 허용한다.
  • 미리 학습된 서브태스크를 구성하여 지시 목록을 실행하는 계층적 아키텍처를 제공한다.

제안 방법

  • 관찰 및 작업 매개변수를 행동과 종료 신호로 매핑하는 매개변수화된 기술을 도입하여 다중 작업 정책 학습을 가능하게 한다.
  • 유사성/비유사성/차이 제약을 포함하는 대조 손실을 이용해 작업 임베딩 공간을 형성하고 미지의 서브태스크 일반화를 가능하게 하는 아날로지-생성 목표를 제안한다.
  • 전이 향상을 위한 선택적 정책 증류를 포함하여 A2C/GAE와 같은 배우-비평가 방법으로 매개변수화된 기술을 훈련한다.
  • 서브태스크를 위한 생성적 기술 학습자와 지시 목록을 읽고 서브태스크 매개변수를 선택하는 메타 컨트롤러로 구성된 두 단계 아키텍처를 개발한다.
  • 이전 서브태스크와 종료 신호를 포함하는 컨텍스트 LSTM을 갖춘 새로운 메타 컨트롤러를 설계하고, 더 큰 시간 규모에서 작동하도록 소프트 업데이트 메커니즘을 사용하는 서브태스크 업데이트기를 설계한다.
  • 지시 시퀀스에 대한 소프트 어텐션을 통해 지시를 검색하고 이동시키는 메모리 기능이 있는 지시 업데이트기를 구현하여 서브태스크 매개변수를 한 단계 업데이트할 수 있게 한다.

실험 결과

연구 질문

  • RQ1제안된 아날로지-생성 목표가 매개변수화된 기술 내에서 보지 못한 서브태스크에 대한 제로샷 일반화를 가능하게 할 수 있는가?
  • RQ2계층적 메타 컨트롤러를 사용할 때 보지 못한 지시 시퀀스나 더 긴 시퀀스로의 일반화가 확장되는가?
  • RQ3지연 보상 및 중단 상황에서 서브태스크 업데이트 시점을 결정하는 메타 컨트롤러의 능력이 성능을 향상시키는가?
  • RQ4소프트 업데이트를 통한 큰 시간 규모에서의 작동가 학습 효율성과 예기치 않은 이벤트에 대한 반응성에 어떻게 영향을 미치는가?
  • RQ5제안된 방법이 지시 실행 과제에서 비계층적 기초 방법 및 다른 계층형 RL 변형보다 성능이 높은가?

주요 결과

  • 아날로지 기반 일반화는 여러 일반화 시나리오에서 보지 못한 매개변수화된 서브태스크로의 성공적인 전이를 가능하게 한다.
  • 메타 컨트롤러를 갖춘 계층적 아키텍처는 보이지 않는 시퀀스를 포함한 지시 시퀀스 실행에서 여러 베이스라인보다 우수한 성능을 보인다.
  • 서브태스크 업데이트 시점(동적 시간 규모)을 학습하는 것이 매 단계마다 업데이트하거나 종료 시에만 업데이트하는 것과 비교하여 지연 보상 및 중단 상황에서 성능을 상당히 향상시킨다.
  • 소프트 업데이트가 있는 대시간 규모 메타 컨트롤러는 고정 시간 규모 변형들보다 학습 효율성과 예기치 않은 이벤트에 대한 강건성이 더 좋다.
  • Minecraft 유사 3D 도메인 실험에서 이 접근법은 더 긴 지시 시퀀스와 보이지 않는 지시에도 일반화되며, 동적 업데이트 메커니즘을 사용할 때 뚜렷한 이점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.