QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning and the Deadly Triad

Hado van Hasselt, Yotam Doron|arXiv (Cornell University)|2018. 12. 06.

Reinforcement Learning in Robotics참고 문헌 27인용 수 110

한 줄 요약

딥 Q-러닝에서 함수 근사화, 부트스트래핑, 오프폴리시 업데이트가 어떻게 상호작용하는지에 대한 실증 연구로, 치명적인 트라이앵글이 불안정을 야기하는 시점과 Atari 게임에서 이를 완화하는 방법을 식별한다.

ABSTRACT

We know from reinforcement learning theory that temporal difference learning can fail in certain cases. Sutton and Barto (2018) identify a deadly triad of function approximation, bootstrapping, and off-policy learning. When these three properties are combined, learning can diverge with the value estimates becoming unbounded. However, several algorithms successfully combine these three properties, which indicates that there is at least a partial gap in our understanding. In this work, we investigate the impact of the deadly triad in practice, in the context of a family of popular deep reinforcement learning models - deep Q-networks trained with experience replay - analysing how the components of this system play a role in the emergence of the deadly triad, and in the agent's performance

연구 동기 및 목표

함수 근사화, 부트스트래핑, 오프폴리시 학습의 결합이 딥 RL의 학습 안정성에 어떤 영향을 미치는지 조사한다.
ATARI 게임에서 DQN 변형에서 불안정성(소프트 다이버전스)이 발생하는 조건을 정량화한다.
설계 선택(부트스트랩 대상, 다중 스텝 반환, 네트워크 규모, 우선순위 재생)이 안정성과 성능에 미치는 영향을 평가한다.

제안 방법

네 가지 옵션(Q-learning, 타깃 Q-learning, 역 이중 Q-learning, 이중 Q-learning) 중에서 부트스트랩 대상을 체계적으로 변화시킨다.
부트스트랩 길이 n = 1, 3, 10를 테스트하여 부트스트래핑을 조절한다.
네트워크 크기 네 가지(소형, 중형, 대형, 초대형)를 사용하여 함수 근사 용량을 수정한다.
가중치를 주는 재생(prioritised replay)의 알파를 다양하게 하고 필요시 중요 샘플링 베타를 함께 사용하여 오프폴리시 강조를 조정한다.
표준 DQN 전처리를 사용하고 구성당 20M 프레임, 3복제로 57개의 Atari 게임에서 평가한다.
이론적 경계를 초과하는 소프트 다이버전스를 진단하기 위해 최대 절대 Q 값을 추적한다.

실험 결과

연구 질문

RQ1치명적인 트라이앵글을 채택한 딥 RL 시스템이 실제로 어떤 조건에서 불안정성을 보이는가?
RQ2부트스트래핑 길이, 네트워크 용량, 우선순위 경험 재생이 DQN 변형에서 발산 및 성능에 어떤 영향을 미치는가?
RQ3타깃 네트워크와 이중 Q-learning이 표준 Q-learning에 비해 불안정성을 감소시키는가?
RQ4다중 스텝 반환을 증가시키면 발산을 완화하고 Atari 게임에서 제어 성능이 향상되는가?

주요 결과

소프트 다이버전스(이론적 범위를 초과하는 값)가 심층 RL에서 발생하지만 무한정으로 커지지는 않으며, 삼합이 문제가 될 수는 있지만 항상 치명적이지는 않음을 시사한다.
Q-learning이 가장 불안정성을 보이고, 타깃 Q-learning과 이중 Q-learning이 가장 안정적이며, 역 이중 Q-learning은 중간 정도로 안정적이다.
더 긴 부트스트랩(n이 클수록) 은 변형 간 불안정성을 감소시키며, n=10이 n=1에 비해 소프트 다이버전스를 현저히 낮춘다.
더 큰 네트워크는 Q-learning의 불안정성을 증가시키지만 이중 Q-learning에서는 그다지 그렇지 않으며, 전반적으로 더 큰 네트워크에서도 성능이 개선될 수 있다.
더 강한 업데이트 우선순위화가 불안정성을 증가시키고, 중요 샘플링 보정을 제거하거나 감소시키면 발산을 완화한다.
실험은 소프트 다이버전스와 제어 성능 저하 사이의 상관관계를 보여주며, 불안정한 실행이 적을수록 더 나은 성능과 연관된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.