[논문 리뷰] Regularization Matters in Policy Optimization
이 논문은 연속 제어 작업을 위한 정책 최적화에서 전통적인 정규화 기법—예를 들어 L2, L1, 드롭아웃, 배치 정규화—에 대한 최초의 종합적인 실험 연구를 제시한다. 연구 결과, 정책 네트워크에 대한 L2 정규화가 성능을 크게 향상시키며, 특히 어려운 작업에서 두각을 나타내며 엔트로피 정규화를 뛰어넘는 경향이 있으며, 정규화를 정책 네트워크에만 적용하는 것이 가장 효과적임을 확인하였다.
Deep Reinforcement Learning (Deep RL) has been receiving increasingly more attention thanks to its encouraging performance on a variety of control tasks. Yet, conventional regularization techniques in training neural networks (e.g., $L_2$ regularization, dropout) have been largely ignored in RL methods, possibly because agents are typically trained and evaluated in the same environment, and because the deep RL community focuses more on high-level algorithm designs. In this work, we present the first comprehensive study of regularization techniques with multiple policy optimization algorithms on continuous control tasks. Interestingly, we find conventional regularization techniques on the policy networks can often bring large improvement, especially on harder tasks. Our findings are shown to be robust against training hyperparameter variations. We also compare these techniques with the more widely used entropy regularization. In addition, we study regularizing different components and find that only regularizing the policy network is typically the best. We further analyze why regularization may help generalization in RL from four perspectives - sample complexity, reward distribution, weight norm, and noise robustness. We hope our study provides guidance for future practices in regularizing policy optimization algorithms. Our code is available at https://github.com/xuanlinli17/iclr2021_rlreg .
연구 동기 및 목표
- 딥 러닝 정규화 기법(예: L2, 드롭아웃 등)이 딥 강화 학습 정책 최적화에 얼마나 효과적인지 조사하기.
- 정책 그래เดียน트 방법에서 널리 사용되는 엔트로피 정규화와 이러한 기법들을 비교하기.
- 학습 및 평가 환경이 동일할 때 정규화가 성능 향상에 기여하는지 확인하여 일반화가 필요하지 않다는 가정에 도전하기.
- 최적의 성능을 얻기 위해 정책 네트워크(정책 대비 가치 네트워크)의 어떤 구성 요소를 정규화해야 하는지 규명하기.
- 샘플 복잡도, 수익 분포, 가중치 노름, 노이즈에 대한 강건성의 관점에서 정규화가 일반화를 향상시키는 근본적 원리를 분석하기.
제안 방법
- SAC, PPO, TRPO, A2C 네 가지 정책 최적화 알고리즘에서 L2, L1, 드롭아웃, 가중치 클리핑, 배치 정규화를 실험적으로 평가한다.
- 다양한 구성 요소(정책 네트워크, 가치 네트워크, 또는 둘 다)에 정규화를 적용하고, MuJoCo 벤치마크의 여러 연속 제어 환경에서 성능을 비교한다.
- 다양한 설정에서 무작위 초모수 탐색을 수행하여 결과의 강건성 평가를 수행한다.
- 기본 모델(정규화 없음)과 엔트로피 정규화와의 비교를 수행한다.
- 정규화가 정책 네트워크와 가치 네트워크에 각각 미치는 영향을 분리하기 위해 아블레이션 스터디를 수행한다.
- 이론적 및 실험적 분석을 통해 정규화가 학습 동역학, 가중치 노름, 노이즈에 대한 강건성에 미치는 영향을 분석한다.
실험 결과
연구 질문
- RQ1학습 및 평가 환경이 동일할 때, L2 및 드롭아웃과 같은 전통적 정규화 기법이 연속 제어 작업의 정책 최적화 성능을 향상시키는가?
- RQ2다양한 정책 최적화 알고리즘에서 전통적 정규화의 성능는 엔트로피 정규화와 어떻게 비교되는가?
- RQ3정책 최적화에서 정규화가 가장 큰 도움을 주는 네트워크 구성 요소는 정책 네트워크인지 가치 네트워크인지?
- RQ4정규화의 효과는 작업 난이도 또는 초모수 설정에 따라 달라지는가?
- RQ5정규화가 딥 강화 학습에서 일반화를 향상시키는 근본적 메커니즘은 무엇인가?
주요 결과
- 정책 네트워크에 대한 L2 정규화는 모든 평가된 알고리즘과 환경에서 일관되게 성능 향상을 이끌어내며, 통계적으로 유의미한 향상이 관찰되며, 특히 어려운 작업에서 두각을 나타낸다.
- L2 정규화는 엔트로피 정규화를 뛰어넘는 경우가 많으며, 평균 수익과 샘플 효율성 양면에서 향상된 성능을 보인다.
- 드롭아웃과 배치 정규화는 오프-폴리시 알고리즘(SAC, PPO 등)에서만 성능 향상을 가져오며, 온-폴리시 알고리즘에서는 종종 성능을 떨어뜨린다.
- 가치 네트워크에 정규화를 적용하는 것은 아무런 이득이 없으며, 오히려 성능 저하를 초래함을 시사하여, 오직 정책 네트워크에만 정규화를 적용하는 것이 바람직하다.
- 정규화의 효과는 광범위한 초모수 설정과 네트워크 아키텍처에서 강건하게 유지된다.
- L2 정규화와 엔트로피 정규화를 병합해도 추가적인 이득이 미미하거나 전혀 없으며, 이는 L2 정규화만으로도 성능 향상이 충분함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.