QUICK REVIEW

[논문 리뷰] Pre-training Neural Networks with Human Demonstrations for Deep Reinforcement Learning

Gabriel Cruz, Yunshu Du|arXiv (Cornell University)|2017. 09. 12.

Anomaly Detection Techniques and Applications인용 수 26

한 줄 요약

이 논문은 깊이 있는 강화학습(DRL) 에이전트를 소량의 비전문가 인간의 시연 데이터를 사용해 사전 훈련하여 특징 학습을 가속화하는 방법을 제안한다. 인간의 경로를 기반으로 훈련된 지도 학습 분류기로 DRL 네트워크를 초기화함으로써, 아타리 게임에서 DQN과 A3C 모두에서 훈련 시간을 크게 단축시키며, 노이즈가 많고 제한된 시연 데이터에도 불구하고 페롱과 프리웨이에서 최대 5배의 가속 효과를 기록한다.

ABSTRACT

Deep reinforcement learning (deep RL) has achieved superior performance in complex sequential tasks by using a deep neural network as its function approximator and by learning directly from raw images. A drawback of using raw images is that deep RL must learn the state feature representation from the raw images in addition to learning a policy. As a result, deep RL can require a prohibitively large amount of training time and data to reach reasonable performance, making it difficult to use deep RL in real-world applications, especially when data is expensive. In this work, we speed up training by addressing half of what deep RL is trying to solve --- learning features. Our approach is to learn some of the important features by pre-training deep RL network's hidden layers via supervised learning using a small set of human demonstrations. We empirically evaluate our approach using deep Q-network (DQN) and asynchronous advantage actor-critic (A3C) algorithms on the Atari 2600 games of Pong, Freeway, and Beamrider. Our results show that: 1) pre-training with human demonstrations in a supervised learning manner is better at discovering features relative to pre-training naively in DQN, and 2) initializing a deep RL network with a pre-trained model provides a significant improvement in training time even when pre-training from a small number of human demonstrations.

연구 동기 및 목표

원시 이미지에서 상태 표현을 학습하는 데 오랜 시간이 소요되는 깊이 있는 강화학습(DRL)의 문제를 해결한다.
랜덤 초기화 대신 인간의 시연 데이터를 사용해 신경망 특징을 사전 훈련함으로써 DRL의 샘플 복잡도를 낮춘다.
정책 학습 알고리즘을 수정하지 않고도 특징 표현에 집중하여 훈련 효율성을 향상시킨다.
비전문가 인간의 시연 데이터를 사용한 사전 훈련이 DRL에서 뚜렷한 성능 향상을 이끌 수 있음을 입증한다.
데이터 수집이 비용이 많이 드는 실제 환경에서 DRL의 빠른 구현을 가능하게 한다.

제안 방법

각 이미지 프레임이 해당하는 동작과 함께 쌍을 이루는 소량의 인간 시연 경로 데이터셋을 사용해 지도 학습을 통해 깊이 신경망을 사전 훈련한다.
사전 훈련된 분류기 가중치를 DRL 에이전트의 초기 정책 네트워크로 사용하여 합성곱 및 완전 연결 계층을 초기화한다.
사전 훈련된 네트워크를 딥 Q 네트워크(DQN)와 비동기적 이점 액터-크리틱(A3C) 알고리즘 양쪽 모두의 초기 정책으로 적용한다.
랜덤 초기화보다 빠른 수렴을 가능하게 하기 위해 사전 훈련된 가중치에서 DRL 에이전트를 훈련한다.
표준 DRL 메트릭(예: 인간 정규화 점수, 목표 성능에 도달하는 데 필요한 훈련 스텝 수)을 사용해 아타리 2600 게임(Pong, Freeway, Beamrider)에서 성능을 평가한다.
모든 네트워크 레이어에서 사전 훈련된 가중치와 최종 훈련된 가중치 간의 특징 유사도를 평균 제곱오차(MSE)로 측정하여 특징 유지 정도를 평가한다.

실험 결과

연구 질문

RQ1비전문가 인간의 시연 데이터를 사용해 깊이 신경망을 사전 훈련하면 DRL에서 훈련 시간을 크게 줄일 수 있는가?
RQ2제한적이고 노이즈가 많은 인간의 시연 데이터로 사전 훈련하는 것이 랜덤 가중치 초기화에 비해 학습 속도와 최종 성능에서 어떻게 다른가?
RQ3사전 훈련 기간에 학습된 특징들이 이후 DRL 훈련 동안 얼마나 유지되는가?
RQ4인간 시연의 품질(예: 노이즈, 비전문성)이 DRL에서 사전 훈련의 효과성에 영향을 미치는가?
RQ5이 사전 훈련 방법은 DQN과 A3C와 같은 다양한 DRL 알고리즘으로 일반화될 수 있는가?

주요 결과

단지 100개의 인간 시연 에피소드로 사전 훈련한 결과, 페롱과 프리웨이에서 DQN의 훈련 시간이 최대 5배 감소했으며, 랜덤 초기화보다 뚜렷이 뛰어난 성능을 보였다.
A3C는 사전 훈련된 가중치로 초기화했을 때 페롱 훈련에서 5배의 가속 효과를 기록하여 다양한 알고리즘 간의 강력한 일반화 능력을 입증했다.
사전 훈련된 가중치와 최종 훈련된 가중치 간의 평균 제곱오차(MSE)는 랜덤 초기화보다 일관되게 낮았으며, 이는 사전 훈련된 특징이 DRL 훈련 중에 유지된다는 것을 의미한다.
합성곱 필터의 시각화 결과, 사전 훈련된 특징(예: 에지 및 운동 감지기)이 DRL 훈련 중에 유지되고 정교화되었음을 확인하여 특징 전이가 이루어졌음을 입증했다.
시연 데이터에서 액션 분포가 불균형하더라도 사전 훈련된 분류기는 여전히 유용한 특징을 학습했으며, 이는 데이터 불균형에 대한 강건성을 시사한다.
이 방법은 페롱, 프리웨이, 비암 레이더러의 세 게임 전반에 걸쳐 일관된 향상을 이끌었으며, 반복적인 게임 상태를 가진 페롱에서 가장 큰 성과를 기록했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.