[논문 리뷰] Exploration versus exploitation in reinforcement learning: a stochastic control approach
이 논문은 연속시간 강화학습에서 탐색과 이용을 엔트로피 정규화를 사용한 확률적 제어 문제로 공식화하여, 최적 정책이 평균이 이용을, 분산이 탐색을 제어하는 가우시안 분포임을 증명한다. 선형-제곱형 설정에서는 탐색 비용이 엔트로피 가중치에 비례하고 할인율에 반비례하며, 탐색이 감소함에 따라 고전적 LQ 제어로 수렴함을 보여준다.
We consider reinforcement learning (RL) in continuous time and study the problem of achieving the best trade-off between exploration of a black box environment and exploitation of current knowledge. We propose an entropy-regularized reward function involving the differential entropy of the distributions of actions, and motivate and devise an exploratory formulation for the feature dynamics that captures repetitive learning under exploration. The resulting optimization problem is a revitalization of the classical relaxed stochastic control. We carry out a complete analysis of the problem in the linear--quadratic (LQ) setting and deduce that the optimal feedback control distribution for balancing exploitation and exploration is Gaussian. This in turn interprets and justifies the widely adopted Gaussian exploration in RL, beyond its simplicity for sampling. Moreover, the exploitation and exploration are captured, respectively and mutual-exclusively, by the mean and variance of the Gaussian distribution. We also find that a more random environment contains more learning opportunities in the sense that less exploration is needed. We characterize the cost of exploration, which, for the LQ case, is shown to be proportional to the entropy regularization weight and inversely proportional to the discount rate. Finally, as the weight of exploration decays to zero, we prove the convergence of the solution of the entropy-regularized LQ problem to the one of the classical LQ problem.
연구 동기 및 목표
- 연속시간 강화학습에서 탐색-이용 트레이드오프를 확률적 제어 이론을 사용하여 공식화하기.
- 엔트로피 정규화를 통해 탐색을 최적화 목표에 내재적으로 통합하여, 수시로 적용되는 탐색 전략을 넘어서기.
- 선형-제곱형(LQ) 설정을 분석하여 명시적 해를 유도하고 최적 정책의 구조를 규명하기.
- 탐색의 비용을 정량화하고 정규화 가중치 및 할인율에 대한 의존성을 규명하기.
- 탐색 가중치가 0으로 감소함에 따라 엔트로피 정규화된 해가 고전적 LQ 해로 수렴함을 증명하기.
제안 방법
- 탐색(높은 엔트로피)과 이용(낮은 엔트로피)을 명시적으로 균형 잡는 엔트로피 정규화 보상 함수를 제안한다.
- 탐색 하에서의 특징 동역학을 새로운 방식으로 공식화하여 반복 학습을 확률적 제어로 모델링한다.
- 문제를 유연한 확률적 제어 문제로 재해석함으로써 행동 분포 분석이 가능하도록 한다.
- 엔트로피 정규화를 적용한 연속시간 LQ 문제를 해결하고, 명시적 피드백 제어 법칙을 유도한다.
- 최적 제어 분포가 가우시안임을 도출하며, 평균과 분산이 각각 이용과 탐색을 별개로 포괄함을 규명한다.
- 정규화된 제어와 고전적 제어 모두에 대해 상태 과정의 두 번째 모멘트에 대한 미분방정식(OED)을 사용하여 장기적 행동과 안정성 분석을 수행한다.
실험 결과
연구 질문
- RQ1연속시간 강화학습에서 탐색을 최적화 목표에 공식적이고 내재적으로 통합할 수 있는 방법은 무엇인가?
- RQ2엔트로피 정규화를 적용한 선형-제곱형 설정에서 탐색과 이용을 균형 잡는 최적 정책의 구조는 무엇인가?
- RQ3탐색의 비용은 엔트로피 정규화 가중치와 할인율에 따라 어떻게 변화하는가?
- RQ4환경의 무작위성과 필요로 하는 탐색 노력 사이의 관계는 무엇인가?
- RQ5탐색이 감소함에 따라 엔트로피 정규화된 해가 고전적 LQ 해로 수렴하는가?
주요 결과
- 탐색과 이용을 균형 잡는 최적 피드백 제어 분포는 가우시안이며, 이는 샘플링 편의성 외적인 이유로도 RL에서 광범위하게 사용됨을 정당화한다.
- 이용과 탐색은 각각 가우시안 분포의 평균과 분산을 통해 상호 배타적으로 포괄된다.
- 더 무작위적인 환경은 본질적으로 더 많은 학습 기회를 제공하므로 탐색이 필요한 정도가 감소한다.
- LQ 케이스에서 탐색의 비용은 엔트로피 정규화 가중치에 비례하고 할인율에 반비례한다.
- 탐색 가중치가 0으로 감소함에 따라 엔트로피 정규화된 LQ 문제의 해는 고전적 LQ 해로 수렴한다.
- 상태 과정의 모멘트 기반 ODE 분석을 통해 정규화된 제어 문제와 고전적 제어 문제 간의 적합성 등가성(Admissibility)이 입증된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.