QUICK REVIEW

[논문 리뷰] Generalization and Regularization in DQN

Jesse Farebrother, Marlos C. Machado|arXiv (Cornell University)|2018. 09. 29.

Reinforcement Learning in Robotics참고 문헌 25인용 수 100

한 줄 요약

논문은 Atari 2600 게임 맛을 이용해 DQN의 일반화 성능을 평가하고, DQN이 학습 맛에 과적합하며 정규화와 미세 조정이 더 일반적이고 재사용 가능한 표현을 만들어 샘플 효율성을 개선할 수 있음을 보여준다.

ABSTRACT

Deep reinforcement learning algorithms have shown an impressive ability to learn complex control policies in high-dimensional tasks. However, despite the ever-increasing performance on popular benchmarks, policies learned by deep reinforcement learning algorithms can struggle to generalize when evaluated in remarkably similar environments. In this paper we propose a protocol to evaluate generalization in reinforcement learning through different modes of Atari 2600 games. With that protocol we assess the generalization capabilities of DQN, one of the most traditional deep reinforcement learning algorithms, and we provide evidence suggesting that DQN overspecializes to the training environment. We then comprehensively evaluate the impact of dropout and $\ell_2$ regularization, as well as the impact of reusing learned representations to improve the generalization capabilities of DQN. Despite regularization being largely underutilized in deep reinforcement learning, we show that it can, in fact, help DQN learn more general features. These features can be reused and fine-tuned on similar tasks, considerably improving DQN's sample efficiency.

연구 동기 및 목표

DQN의 일반화 능력을 다양한 미묘하게 다른 Atari 2600 게임 맛(모드/난이도)에서 평가한다.
훈련 맛에 대한 DQN의 과적합 경향을 정량화한다.
드롭아웃과 L2 정규화를 포함한 정규화 기법이 맛 간 DQN 성능에 미치는 영향을 평가한다.
정규화된 표현이 관련 작업에서 재사용 및 파인 튜닝에 의해 샘플 효율성을 개선하는지 조사한다.

제안 방법

ALE 내의 Atari 2600 게임 맛(모드와 난이도)을 이용한 일반화 테스트 프로토콜을 도입한다.
기본 맛(m0d0)에서 50M 프레임 동안 DQN을 학습한 뒤 다른 맛에서 평가한다.
훈련 중 처음 네 개의 층에 드롭아웃을 적용하고 L2 가중치 정규화를 적용하며 하이퍼파라미터를 격자 탐색으로 선택한다.
정규화된 정책과 비정규화 기준선의 맛 간 성능을 비교한다.
사전 학습과 함께 정규화를 적용한 후 전체 네트워크를 파인 튜닝하는 전략과 초기 층만 파인 튜닝하는 전략의 두 가지 전이 학습 전략을 탐구한다.

실험 결과

연구 질문

RQ1하나의 Atari 맛에서 학습된 DQN 정책이 시각적으로/동적으로 유사한 다른 맛으로 일반화할 수 있는가?
RQ2전통적 정규화 기법이 맛 간 일반화를 향상시키거나 DQN에서 더 재사용 가능한 표현을 가능하게 하는가?
RQ3정규화를 통한 사전 학습이 새로운 맛에서의 파인 튜닝 성능을 처음부터 학습하는 것보다 더 나은가?
RQ4관련 작업으로의 전이 시 정규화된 표현이 샘플 복잡도를 얼마나 줄이는가?

주요 결과

DQN 정책은 맛 간 일반화가 미흡하고 학습 맛에 과적합하는 경향을 보이는 게임이 다수 존재한다(예: Freeway).
정규화(드롭아웃 + L2)는 훈련 중 다수의 경우에 맛 간 평가를 개선하고 샘플 효율성을 높일 수 있지만, 그것만으로 맛 간 일반화를 보장하지는 않는다.
정규화된 표현은 새로운 맛에서 파인 튜닝의 더 나은 초기화로 작용할 수 있으며, 동등하거나 더 낮은 총 훈련 프레임 수 하에서 스크래치 초기화보다 종종 우수한 성능을 보인다.
정규화된 사전 학습 후 네트워크 전체를 파인 튜닝하면 여러 게임(HERO, Space Invaders 등)에서 강한 이득을 주며 학습된 일반 특성을 시사한다.
정규화된 사전 학습 후에 초기 층만 파인 튜닝하는 것도 도움이 되며, 일부 층별 특성 전이 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.