Skip to main content
QUICK REVIEW

[논문 리뷰] Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction

Wen Sun, Arun Venkatraman|arXiv (Cornell University)|2017. 03. 02.
Reinforcement Learning in Robotics참고 문헌 28인용 수 91
한 줄 요약

AggreVaTeD는 순차 예측 및 고차원 제어를 학습하기 위해 오라클(cost-to-go)을 활용하는 미분 가능 모방 학습 방법으로, 강화 학습보다 더 빠르고 종종 우수한 성능을 달성하며, 심지어 최적이 아닌 오라클인 경우에도 그렇다.

ABSTRACT

Researchers have demonstrated state-of-the-art performance in sequential decision making problems (e.g., robotics control, sequential prediction) with deep neural network models. One often has access to near-optimal oracles that achieve good performance on the task during training. We demonstrate that AggreVaTeD --- a policy gradient extension of the Imitation Learning (IL) approach of (Ross & Bagnell, 2014) --- can leverage such an oracle to achieve faster and better solutions with less training data than a less-informed Reinforcement Learning (RL) technique. Using both feedforward and recurrent neural network predictors, we present stochastic gradient procedures on a sequential prediction task, dependency-parsing from raw image data, as well as on various high dimensional robotics control problems. We also provide a comprehensive theoretical study of IL that demonstrates we can expect up to exponentially lower sample complexity for learning with AggreVaTeD than with RL algorithms, which backs our empirical findings. Our results and theory indicate that the proposed approach can achieve superior performance with respect to the oracle when the demonstrator is sub-optimal.

연구 동기 및 목표

  • 학습 중에 근사 최적의 비용-투-고 오라클을 활용하여 순차 결정 문제에서 샘플 효율성과 성능을 향상시키려는 동기 부여.
  • 순차 예측 작업을 위해 모방 학습을 복잡하고 고차원적인 모델(예: 딥 뉴럴넷, LSTM)로 확장.
  • 대형 함수 근사기에 확장 가능한 온라인 그래디언트 및 자연 그래디언트 업데이트를 제공.
  • Q*에 접근 가능한 경우 IL 대 RL의 이론적 분석을 통해 샘플 효율성의 지수적 또는 다항적 이득 가능성을 보인다.

제안 방법

  • 현 시점의 정책에 의해 유도된 상태 분포 아래 전문가의 비용-투-고 Q*를 사용하는 노-리그레트 손실을 가진 온라인 학습으로 IL을 형식화한다 (Eq. 1).
  • 두 가지 그래디언트 업데이트 패밀리: 일반적인 Online Gradient Descent(OGD)와 자연 그래디언트 방법으로 이어지는 Exponential Gradient(EG)를 제시한다.
  • 이산 및 연속 행동에 대한 실용적 그래디언트 표현(Eq. 3, Eq. 4, Eq. 5; EG의 Eq. 6 및 Eq. 7)을 도출한다.
  • 표현력이 풍부한 정책(예: 신경망, LSTM)을 학습하기 위해 전문가 롤인과 학습자 롤인을 점차 감소시키는 혼합으로 미분 가능한 AggreVaTeD(Alg. 1)를 도입한다.
  • 감소 방향을 계산하기 위한 저랭크 표현과 공액 그래디언트를 이용한 피셔 정보 기반의 효율적 자연 그래디언트 업데이트를 도입한다.
  • 분산 감소 그래디언트 추정기(Eq. 12, Eq. 13)와 그래디언트 및 피셔 행렬의 샘플 기반 근사(Eq. 14)를 제시한다.

실험 결과

연구 질문

  • RQ1오르클을 가진 미분 가능 모방 학습이 순차 예측 및 제어에서 전통적 RL을 능가할 수 있는가?
  • RQ2온라인 학습 업데이트에서 전문가의 비용-투-고 Q*를 활용하여 얼마나 많은 샘플 효율성을 얻을 수 있는가?
  • RQ3AggreVaTeD가 딥 아키텍처와 부분 관측 설정(LSTM 포함)으로 확장되면서도 성능 이점을 유지할 수 있는가?
  • RQ4이산 MDP에서의 후회 및 샘플 복잡도 관점에서 IL과 RL의 이론적 한계는 무엇인가?
  • RQ5고차원 작업에서 일반 그래디언트 대 자연 그래디언트의 다른 업데이트 스킴이 실제로 어떻게 비교되는가?

주요 결과

  • 미분 가능 형식과 오라클를 갖춘 AggreVaTeD는 오라클이 부분적으로 최적이더라도 전문가 수준 또는 초 전문가 성능을 달성할 수 있다(실험 결과).
  • 로봇 시뮬레이션에서 자연 그래디언트 AggreVaTeD가 전문가를 Acrobot에서 5.8%, Cart-pole에서 25% 넘어섰다.
  • LSTM 정책을 사용하는 AggreVaTeD는 RL이 개선에 실패한 부분 관측 설정에서도 효과적으로 남아 있다.
  • 연속 동작 태스크(Walker, Hopper)에서 AggreVaTeD는 Walker에서 전문가 대비 5.4% 개선을 달성하고 Hopper에서 전문가 성능의 97%에 도달한다.
  • 의존 구문 분석 실험은 LSTM 및 NN 정책과 함께 AggreVaTeD의 UAS 점수가 RL 기준선 및 감독 학습 기준선과 경쟁력이 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.