QUICK REVIEW

[논문 리뷰] Integration of Imitation Learning using GAIL and Reinforcement Learning using Task-achievement Rewards via Probabilistic Graphical Model

Akira Kinose, Tadahiro Taniguchi|arXiv (Cornell University)|2019. 07. 03.

Reinforcement Learning in Robotics참고 문헌 65인용 수 24

한 줄 요약

이 논문은 다중 최적성 발현(pMDP-MO)을 갖춘 확률적 그래픽 모델(PGM) 프레임워크를 사용하여, 강화학습(RL)과 타깃 학습(IL)을 새로운 방식으로 통합한 TRGAIL을 제안한다. GAIL 판별기의 출력을 추가적인 최적성 신호로 모델링하고, 이와 작업 완수 보상과 결합함으로써 정책 학습을 통합된 확률적 추론으로 공식화함으로써, 기반선 RL 및 IL 방법보다 유의미하게 향상된 샘플 효율성과 성능을 달성하였다. 이는 로봇 조작 작업에서 성과를 보였다.

ABSTRACT

Integration of reinforcement learning and imitation learning is an important problem that has been studied for a long time in the field of intelligent robotics. Reinforcement learning optimizes policies to maximize the cumulative reward, whereas imitation learning attempts to extract general knowledge about the trajectories demonstrated by experts, i.e., demonstrators. Because each of them has their own drawbacks, methods combining them and compensating for each set of drawbacks have been explored thus far. However, many of the methods are heuristic and do not have a solid theoretical basis. In this paper, we present a new theory for integrating reinforcement and imitation learning by extending the probabilistic generative model framework for reinforcement learning, {\it plan by inference}. We develop a new probabilistic graphical model for reinforcement learning with multiple types of rewards and a probabilistic graphical model for Markov decision processes with multiple optimality emissions (pMDP-MO). Furthermore, we demonstrate that the integrated learning method of reinforcement learning and imitation learning can be formulated as a probabilistic inference of policies on pMDP-MO by considering the output of the discriminator in generative adversarial imitation learning as an additional optimal emission observation. We adapt the generative adversarial imitation learning and task-achievement reward to our proposed framework, achieving significantly better performance than agents trained with reinforcement learning or imitation learning alone. Experiments demonstrate that our framework successfully integrates imitation and reinforcement learning even when the number of demonstrators is only a few.

연구 동기 및 목표

RL과 IL 간의 히وري스틱 통합 방법의 한계를 해결하기 위해 통합된 이론적 프레임워크를 수립하기 위해.
다양한 유형의 최적성 신호를 동시에 학습할 수 있도록 지원하는 확률적 그래픽 모델(pMDP-MO)을 개발하기 위해.
GAIL을 통한 전문가 시연와 작업 특화 보상 신호를 하나의 추론 기반 프레임워크 내에서 결합하여 상호보완적 학습을 가능하게 하기 위해.
통합된 IL 및 RL 신호를 사용하여 복잡한 로봇 제어 작업에서 샘플 효율성과 최종 성능을 향상시키기 위해.

제안 방법

다중 최적성 발현을 통합하는 새로운 PGM 프레임워크인 pMDP-MO를 제안하며, 제어의 추론 기반 확장에 기여한다.
GAIL 판별기 출력을 확률적 최적성 신호로 모델링하여, 타깃 학습을 확률적 추론의 한 형태로 간주할 수 있도록 한다.
GAIL 기반의 타깃 학습 보상과 작업 완수 보상을 통합하여 정책 최적화를 위한 통합 목적 함수를 구성한다.
최대 엔트로피 RL을 사용하여 작업 완수와 전문가 모방을 동시에 최대화하는 정책을 최적화하며, pMDP-MO에서의 통합 추론으로 공식화한다.
다중 최적성 제약 조건 하에서 후행 정책 분포를 근사하기 위해 구조적 변분 추론을 적용한다.
물리 시뮬레이터에서의 로봇 조작 작업에 이 프레임워크를 적용하여, 병합된 보상 신호를 사용해 PPO를 통해 정책을 훈련시킨다.

실험 결과

연구 질문

RQ1통합된 확률적 그래픽 모델 프레임워크가 RL 및 IL의 다수 보상 신호를 효과적으로 통합할 수 있는가?
RQ2GAIL 판별기를 최적성 발현으로 모델링할 경우, 기존의 표준 IL 또는 RL에 비해 정책 학습에 어떤 개선 효과를 보이는가?
RQ3작업 완수 보상과 GAIL 기반의 타깃 학습 신호를 통합할 경우 샘플 효율성과 최종 성능이 얼마나 향상되는가?
RQ4제안된 방법이 다양한 복잡도와 전문가 품질을 가진 다양한 로봇 제어 작업에 일반화되는가?

주요 결과

푸셔 테스크에서 TRGAIL은 15개의 전문가 시연로 평균 에피소드 점수 72.4를 기록하여, GAIL(61.1)과 BC(34.0)를 모두 초월했다.
스트라이커 테스크에서 TRGAIL은 10개의 전문가 트랙토리로 평균 점수 72.6을 기록하여, GAIL(40.1)과 BC(7.6)를 크게 뛰어넘었다.
투러 테스크에서 TRGAIL은 15개의 전문가 시연로 평균 점수 86.9를 기록하여, GAIL(86.1)과 BC(63.5)를 모두 초월했다.
TRGAIL은 특히 적은 수의 전문가 트랙토리에서 뛰어난 샘플 효율성을 보였으며, 단 1개의 전문가 트랙토리만 존재할 경우에도 GAIL보다 뛰어난 성능을 달성했다.
부적절한 전문가에 대해서도 강건성을 보였으며, 전문가 시연가 불완전하거나 비최적일 경우에도 효과적으로 학습할 수 있었다.
프레임워크는 성능 저하가 약간 발생하는 트레이드오프를 드러내었으며, 이는 IL 및 RL 신호의 동적 가중치 조정이 추가로 성능 향상에 기여할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.