Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Q-learning from Demonstrations

Todd Hester, Matej Vecerík|arXiv (Cornell University)|2017. 04. 12.
Reinforcement Learning in Robotics인용 수 307
한 줄 요약

DQfD는 시연 데이터에 TD와 감독 학습 손실의 조합으로 사전 학습한 뒤, 시연 데이터와 스스로 생성한 데이터를 모두 이용해 우선순위 재생으로 학습하며, 여러 베이스라인을 능가하고 여러 Atari 게임에서 최첨단 성과를 달성한다.

ABSTRACT

Deep reinforcement learning (RL) has achieved several high profile successes in difficult decision-making problems. However, these algorithms typically require a huge amount of data before they reach reasonable performance. In fact, their performance during learning can be extremely poor. This may be acceptable for a simulator, but it severely limits the applicability of deep RL to many real-world tasks, where the agent must learn in the real environment. In this paper we study a setting where the agent may access data from previous control of the system. We present an algorithm, Deep Q-learning from Demonstrations (DQfD), that leverages small sets of demonstration data to massively accelerate the learning process even from relatively small amounts of demonstration data and is able to automatically assess the necessary ratio of demonstration data while learning thanks to a prioritized replay mechanism. DQfD works by combining temporal difference updates with supervised classification of the demonstrator's actions. We show that DQfD has better initial performance than Prioritized Dueling Double Deep Q-Networks (PDD DQN) as it starts with better scores on the first million steps on 41 of 42 games and on average it takes PDD DQN 83 million steps to catch up to DQfD's performance. DQfD learns to out-perform the best demonstration given in 14 of 42 games. In addition, DQfD leverages human demonstrations to achieve state-of-the-art results for 11 games. Finally, we show that DQfD performs better than three related algorithms for incorporating demonstration data into DQN.

연구 동기 및 목표

  • 정확한 시뮬레이터를 이용할 수 없지만 시연 데이터가 존재하는 실제 RL 환경에서 학습을 촉진한다.
  • 벨만 방정식을 만족하는 가치 함수를 학습하기 위해 시연 데이터로 딥 Q-네트워크를 사전 학습한다.
  • 우선순위 재생을 통해 시연 데이터와 자체 생성 데이터를 혼합하여 계속 학습함으로써 온라인 학습을 가능하게 한다.
  • 시연 데이터를 포함시키면 초기 성능이 더 빠르게 올라가고 여러 Atari 게임에서 최첨단 성과를 얻는다는 것을 보여준다.

제안 방법

  • 네 가지 손실을 사용하여 시연 데이터에 대해 사전 학습한다: 1-step 더블 Q-러닝, n-step 더블 Q-러닝, 대-margin 감독 분류 손실, 그리고 L2 정규화.
  • 데모시연자의 행동에 큰 여백 손실을 적용해 다른 행동들을 데모시연자의 행동보다 여백만큼 낮추는 것을 목표로 한다.
  • 시연 경로에서 값을 전파하기 위해 n-step TD 손실을 도입한다.
  • 시연 전이에 우선순위 보너스를 주는 우선순위 경험 재생을 사용하여 시연 데이터와 에이전트 데이터를 균형 있게 조정한다.
  • 온라인 학습 동안 재생 버퍼에 시연 데이터를 영구적으로 보관하고 시연 데이터와 자체 생성 데이터의 혼합에서 샘플링한다.

실험 결과

연구 질문

  • RQ1딥 Q-네트워크를 시연에서 효과적으로 사전 학습한 후 자체 경험에서 계속 학습할 수 있는가?
  • RQ2TD 업데이트와 감독 모방 손실을 결합하는 것이 시연이 가능할 때 초기 성능과 전체 학습을 개선하는가?
  • RQ3온라인 학습 중 시연 데이터와 자체 생성 데이터를 어떤 비율로 균형 있게 사용해야 성능을 극대화할 수 있는가?
  • RQ4시연으로 보강된 Deep Q-networks가 비시연 기준선과 비교해 어려운 탐색 Atari 게임에서 더 우수한 성능을 보이는가?

주요 결과

  • DQfD는 처음 백만 단계에서 42개 중 41개 게임에서 Prioritized Dueling Double DQN (PDD DQN)보다 초기 성능이 더 좋다.
  • 평균적으로 PDD DQN은 DQfD의 성능을 따라잡기 위해 약 8,300만 단계가 필요하다.
  • DQfD는 42개 게임 중 14개에서 최고 시연 데이터를 능가하도록 학습하고 11개 게임에서 최첨단 결과를 달성한다.
  • DQfD는 여러 지표에서 관련된 세 가지 시연 보강 알고리즘과 순수 모방 학습을 능가한다.
  • DQfD는 비교적 작은 시연 세트(게임당 5,574에서 75,472 전이)로도 강력한 이득을 제공한다.
  • 사전 학습 중 네 가지 손실의 조합은 안정성과 성능에 결정적임이 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.