QUICK REVIEW

[논문 리뷰] Prioritized Sequence Experience Replay

Marc Brittain, Joshua R. Bertram|arXiv (Cornell University)|2019. 05. 25.

Reinforcement Learning in Robotics참고 문헌 22인용 수 33

한 줄 요약

논문은 Prioritized Sequence Experience Replay (PSER)을 도입합니다. PSER은 PER의 확장으로, 시퀀스를 통해 우선순위를 전달하여 학습 속도를 가속화하고 PER보다 더 빠른 수렴과 Atari 성능 향상을 보입니다. 저자들은 이론적으로 수렴 속도 이점이 있음을 증명하고, Blind Cliffwalk와 Atari 2600에서 실증적 이득을 시연합니다.

ABSTRACT

Experience replay is widely used in deep reinforcement learning algorithms and allows agents to remember and learn from experiences from the past. In an effort to learn more efficiently, researchers proposed prioritized experience replay (PER) which samples important transitions more frequently. In this paper, we propose Prioritized Sequence Experience Replay (PSER) a framework for prioritizing sequences of experience in an attempt to both learn more efficiently and to obtain better performance. We compare the performance of PER and PSER sampling techniques in a tabular Q-learning environment and in DQN on the Atari 2600 benchmark. We prove theoretically that PSER is guaranteed to converge faster than PER and empirically show PSER substantially improves upon PER.

연구 동기 및 목표

샘플 효율성을 향상시켜 데이터 효율적 학습을 촉진한다.
PER에 시간적 시퀀스 정보를 통합하고 역방향 우선순위 감소를 도입해 학습 신호를 전파한다.
이론적 수렴 통찰과 합성 및 벤치마크 환경에서의 실증 검증을 제공한다.
PSER를 사용한 DQN으로 Atari 2600에서 데이터 효율성과 최종 성능 측면의 실질적 개선을 시연한다.

제안 방법

TD 오차에 기반한 전환에 우선순위를 할당하고 에피소드의 이전 전환으로 이 우선순위를 감쇠/전파한다.
감쇠 계수 rho와 윈도우 W를 사용한 백프로파게이션으로 두 가지 감쇠 체계(MAX 및 ADD)를 형식화한다.
우선순위 붕괴를 방지하고 학습 신호 전파를 보존하기 위한 감쇠 안전장치 매개변수 eta를 도입한다.
PSER를 DQN 프레임워크 위에 적용하고 Blind Cliffwalk 및 Atari 2600 벤치마크에서 PER과 비교한다.
기존 연구와 마찬가지로 샘플링 편향을 보정하기 위한 중요도 샘플링 가중치(beta 매개변수)를 도입한다.
좌표 하강법(coordinate-descent)을 사용해 Atari 게임의 부분 집합에서 PSER 하이퍼파라미터를 조정하여 일반화 가능한 결과를 보고한다.

실험 결과

연구 질문

RQ1행동 시퀀스에서 TD-오차 기반 우선순위를 역방향으로 전달하는 PSER이 표준 PER에 비해 수렴 속도를 높이는가?
RQ2MAX 대 ADD 감쇠, 초기 우선순위 전략 (MaxPrio 대 CurrentTD), 그리고 eta 매개변수가 PSER의 성능과 안정성에 어떤 영향을 미치는가?
RQ3PSER가 DQN을 사용한 Atari 2600 같은 표준 벤치마크에서 PER 대비 실증적 이점을 제공할 수 있는가?
RQ4PSER의 PER 대비 수렴 속도에 대한 이론적 보장은 무엇인가?

주요 결과

샘플링 전략	중앙값	평균
PSER	109%	832%
PER	88%	607%

PSER가 Atari 2600 벤치마크 게임에서 PER보다 성능을 크게 향상시킨다.
Blind Cliffwalk 환경에서 PSER은 역방향 우선순위 감소로 인해 PER보다 수렴 속도가 빠르다.
PSER은 no-ops 구간에서 55개 Atari 게임에서 중앙값 인간표준화 점수 109%와 평균 832%를 달성한 반면, PER은 중앙값 88% 및 평균 607%이다.
이론적 결과에 따르면, Blind Cliffwalk 설정에서 감소 계수 ρ를 갖는 PSER이 PER보다 더 빨리 수렴한다.
소거 연구에서 MAX 감쇠가 일반적으로 PSER에서 ADD 감쇠보다 우수한 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.