[논문 리뷰] Pretraining Deep Actor-Critic Reinforcement Learning Algorithms With Expert Demonstrations
이 논문은 전문가 시범 데이터를 사용하여 액터-크리틱 강화학습 알고리즘을 사전 훈련하는 새로운 방법을 제안한다. 전문가 시범이 전역 최적임을 가정하지 않으며, 전문가 궤적만을 사용하여 정책과 가치 함수 업데이트에 대한 이론적 그래디언트를 유도한다. 이로 인해 연속적 및 이산적 제어 환경에서 더 빠르고 시뮬레이션 효율적인 훈련이 가능해지며, DDPG와 ACER에서 비사전 훈련 기반 모델들을 능가한다.
Pretraining with expert demonstrations have been found useful in speeding up the training process of deep reinforcement learning algorithms since less online simulation data is required. Some people use supervised learning to speed up the process of feature learning, others pretrain the policies by imitating expert demonstrations. However, these methods are unstable and not suitable for actor-critic reinforcement learning algorithms. Also, some existing methods rely on the global optimum assumption, which is not true in most scenarios. In this paper, we employ expert demonstrations in a actor-critic reinforcement learning framework, and meanwhile ensure that the performance is not affected by the fact that expert demonstrations are not global optimal. We theoretically derive a method for computing policy gradients and value estimators with only expert demonstrations. Our method is theoretically plausible for actor-critic reinforcement learning algorithms that pretrains both policy and value functions. We apply our method to two of the typical actor-critic reinforcement learning algorithms, DDPG and ACER, and demonstrate with experiments that our method not only outperforms the RL algorithms without pretraining process, but also is more simulation efficient.
연구 동기 및 목표
- 심층 강화학습이 대량의 온라인 시뮬레이션 데이터를 요구하는 데서 비효율성을 해결하기 위해.
- 기존 사전 훈련 방법이 전문가 시범이 전역 최적임을 가정한다는 한계를 극복하기 위해.
- 전문가 시범만을 사용하여 액터-크리틱 프레임워크에서 정책과 가치 함수를 이론적으로 타당한 방법으로 사전 훈련하는 방법을 개발하기 위해.
- 사전 훈련이 정책 성능을 떨어뜨리지 않으면서도 샘플 효율성과 성능 향상을 보장하기 위해.
- 연속 제어 및 고차원 이산 제어 환경(예: 아케이드 게임)에 일반화할 수 있도록 하기 위해.
제안 방법
- 전문가가 전역 최적임을 가정하지 않고도, 정리 1에 기반해 전문가 궤적만을 사용하여 정책 그래디언트와 가치 추정기 업데이트를 유도한다.
- 전문가 행동과 상태-행동 가치를 활용하여 정책 네트워크를 초기화하는 정책 그래디언트 업데이트(식 8)를 제안한다.
- 전문가 상태-행동 가치 추정치를 사용하여 비평가 네트워크를 사전 훈련하는 가치 함수 업데이트(식 9)를 개발한다.
- DDPG와 ACER와 같은 액터-크리틱 알고리즘에 사전 훈련 절차를 통합하며, 동일한 훈련 루프를 사용하지만 전문가 데이터로 초기화한다.
- ACER 실험에서 사전 훈련 후 미세조정 중 정책 안정성을 유지하기 위해 신뢰 영역 업데이트를 적용한다.
- ACER에서 이중 출력 신경망 아키텍처를 사용하여 정책과 Q-값을 동시에 예측하며, 양쪽 헤드에 사전 훈련을 적용한다.
실험 결과
연구 질문
- RQ1전문가 시범을 사용하여 전역 최적성이 보장되지 않는 액터-크리틱 강화학습에서 정책과 가치 함수를 사전 훈련할 수 있는가?
- RQ2전문가 데이터로 사전 훈련하면 DDPG 및 ACER와 같은 심층 액터-크리틱 알고리즘에서 샘플 효율성과 최종 성능이 향상되는가?
- RQ3특히 성능 저하 또는 안정성 측면에서 사전 훈련 단계 중 및 이후 정책 성능에 사전 훈련이 어떤 영향을 미치는가?
- RQ4제안된 방법은 연속 제어 및 고차원 이산 제어(예: 아케이드 게임) 환경 등 다양한 환경에 일반화 가능한가?
- RQ5동일한 수의 시뮬레이션 스텝을 기준으로 사전 훈련 과정이 엔드 투 엔드 RL 훈련보다 더 시뮬레이션 효율적인가?
주요 결과
- 제안된 사전 훈련 방법을 적용한 DDPG는 HalfCheetah, Hopper, Walker2d에서 표준 DDPG를 능가하며, 사전 훈련 종료 후 더 빠른 학습을 보인다.
- HalfCheetah에서 사전 훈련 단계는 온난 스타트를 제공하며, 사전 훈련 후 일시적인 성능 저하가 있었음에도 불구하고 정책가 기준 모델을 빠르게 초월한다.
- Hopper와 Walker2d에서는 개별 실행이 불안정할 수 있으나, 스무딩된 결과를 통해 사전 훈련이 더 빠른 수렴을 가능하게 함을 확인했다.
- ACER에 사전 훈련을 적용한 결과, 테스트된 모든 아케이드 환경(AirRaid, Breakout, Carnival, CrazyClimber, Gopher)에서 기준 ACER를 능가했으며, 일관된 향상이 관찰되었다.
- DDPG와 달리 ACER는 사전 훈련 후 성능 저하를 겪지 않았다. 이는 사전 훈련 단계에서 이점 함수가 0이므로 정책 그래디언트 업데이트가 안정되기 때문이다.
- 동일한 수의 시뮬레이션 스텝을 사용할 때 기준 RL 알고리즘보다 더 높은 성능을 달성함으로써, 사전 훈련 과정이 더 시뮬레이션 효율적임을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.