QUICK REVIEW

[논문 리뷰] The Intentional Unintentional Agent: Learning to Solve Many Continuous Control Tasks Simultaneously

Serkan Cabi, Sergio Gómez Colmenarejo|arXiv (Cornell University)|2017. 07. 11.

Reinforcement Learning in Robotics참고 문헌 31인용 수 18

한 줄 요약

이 논문은 다중 헤드 액터-크리틱 프레임워크에서 공유된 표현을 사용하여 여러 연속 제어 정책을 동시에 학습하는 딥 강화학습 아키텍처인 의도적 무의도적( IU) 에이전트를 소개한다. 주요(의도적) 작업에 대해 훈련하면서 다른 작업(무의도적)을 오프-폴리시로 학습함으로써 IU 에이전트는 학습 속도를 가속화하고, 표준 DDPG가 실패하는 고차원적이고 접촉이 많은 환경에서 희박한 보상이 존재하는 복잡한 작업을 해결한다.

ABSTRACT

This paper introduces the Intentional Unintentional (IU) agent. This agent endows the deep deterministic policy gradients (DDPG) agent for continuous control with the ability to solve several tasks simultaneously. Learning to solve many tasks simultaneously has been a long-standing, core goal of artificial intelligence, inspired by infant development and motivated by the desire to build flexible robot manipulators capable of many diverse behaviours. We show that the IU agent not only learns to solve many tasks simultaneously but it also learns faster than agents that target a single task at-a-time. In some cases, where the single task DDPG method completely fails, the IU agent successfully solves the task. To demonstrate this, we build a playroom environment using the MuJoCo physics engine, and introduce a grounded formal language to automatically generate tasks.

연구 동기 및 목표

유아 발달과 집중된 작업 수행 중 다수의 기술을 부수적으로 학습하는 데 영감을 얻어, 동시에 많은 연속 제어 작업을 학습할 수 있는 딥 강화학습 에이전트를 개발하는 것.
물리 기반 환경에서 자동으로 생성되는 다변량이고 의미적으로 기반된 보상 함수 스트림을 활용하여 연속 제어에서 희박한 보상 문제를 해결하는 것.
특히 부수적으로 학습된 작업들을 동시에 학습하는 것이 단일 작업 훈련과 비교해 학습 속도를 가속화하고 샘플 효율성을 향상시키는지 탐구하는 것.
무의도적으로 학습된 정책을 향후 의도적인 작업에 재사용할 수 있도록 하여, 영리한 로봇 조작을 위한 재사용 가능한 제어 정책 라이브러리를 만들 수 있도록 하는 것.
과정 학습(curriculum learning) 이 다중 작업 강화학습에서 수행하는 역할을 탐구하며, 특히 가장 어려운 작업을 행동 정책로 선택할 경우 경험 재생과 탐색이 최적화되는지 여쭤보는 것.

제안 방법

공유된 하위 수준 표현과 비공유 출력 헤드를 가진 다중 헤드 액터 네트워크를 제안하며, 각각 다른 제어 작업을 위한 별개의 정책을 나타낸다.
각 작업에 대해 상태-행동 가치 함수를 계산하는 공유 관측, 다중 헤드 크리틱 네트워크를 사용하며, 각 정책에 대해 개별 Q-값 헤드를 갖는다.
학습에 결정론적 정책 기울기(DDPG)를 사용하며, 에이전트는 한 정책(의도적 작업)에 따라 행동하면서, 다른 모든 정책은 경험 메모리에 기반해 오프-폴리시로 업데이트한다.
MuJoCo 기반의 놀이방 환경에서 자동으로 다양한 의미적으로 유의미한 제어 작업(예: '빨간 블록을 파란 블록의 동쪽으로 옮기기')을 생성하기 위해 기반된 형식 언어를 도입한다.
중력, 강체, 단순한 몸체를 가진 에이전트를 포함하는 물리 환경을 설계하여 고정된 물리 법칙과 신체 구조를 유지함으로써 지속적이고 이식 가능한 학습을 지원한다.
우선순위 샘플링을 사용하는 경험 재생을 적용하며, 행동 정책(의도적 작업)이 모든 다른 정책을 오프-폴리시로 업데이트하는 데 사용되는 경험의 분포를 결정한다.

실험 결과

연구 질문

RQ1한 가지 작업에 집중하면서 다른 작업을 부수적으로 학습함으로써 다수의 연속 제어 작업을 동시에 학습할 수 있으며, 이는 학습 속도와 성공률을 향상시키는가?
RQ2공유된 표현과 재생 버퍼를 사용해 다수의 작업을 오프-폴리시로 학습하는 것이 단일 작업 DDPG와 비교해 더 나은 샘플 효율성과 하드 탐색 작업에서의 성능을 제공하는가?
RQ3무의도적으로 학습된 정책을 효과적으로 새로운 의도적 작업에 재사용할 수 있는가? 그리고 이는 로봇에서의 수명 주기적 및 이식 가능한 학습을 지원하는 데 어떻게 기여하는가?
RQ4다중 작업 강화학습에서 과정 학습을 위해 가장 어려운 작업을 행동 정책로 선택하는 것이 최적인가? 그리고 이는 무작위 또는 적응형 정책 선택보다 왜 우수한가?
RQ5예를 들어 한 개 블록을 옮기는 것이 두 개를 옮기기 전의 전제 조건인 것처럼, 작업의 중첩(예: 한 개 → 두 개 → 세 개)이 복잡한 다체 제어 시나리오에서 IU 에이전트의 학습 역학과 성공에 어떤 영향을 미치는가?

주요 결과

표준 DDPG 에이전트가 희박한 보상과 높은 탐색 난이도로 인해 완전히 실패하는 복잡한 연속 제어 작업—예를 들어 세 개 이상의 블록을 함께 옮기는 것—을 IU 에이전트가 성공적으로 해결한다.
다양한 작업을 동시에 학습함으로써 훈련 속도가 가속화되며, 학습하는 작업 수가 많을수록 모든 정책, 특히 주요(의도적) 작업 정책의 수렴 속도가 빨라진다.
에이전트는 단일 행동 정책을 따르는 동안 모든 작업을 오프-폴리시로 학습하며, 이는 부수적으로 학습된 다수의 기술이 향후 사용에 활용될 수 있음을 보여준다.
가장 어려운 작업을 행동 정책로 선택하는 것이 랜덤 또는 적응형 정책 선택보다 우수한 성능을 내며, 이는 복잡한 상태 공간을 탐색하는 데 필수적인 풍부하고 다양한 경험을 재생 버퍼에 축적하기 때문이다.
예를 들어 한 개 블록을 옮기는 것이 두 개를 옮기기 전의 전제 조건인 중첩된 작업 구조가 있는 환경에서는 IU 에이전트가 작업의 계층적 성격을 활용해 전체 학습 효율성을 향상시킨다.
이 아키텍처는 학습된 정책을 새로운 작업에 재사용할 수 있도록 하여, 영리한 로봇 조작을 위한 재사용 가능한 제어 정책 라이브러리 구축로 이르는 길을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.