QUICK REVIEW

[논문 리뷰] Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods

René Carmona, Mathieu Laurière|arXiv (Cornell University)|2019. 10. 09.

Reinforcement Learning in Robotics참고 문헌 24인용 수 34

한 줄 요약

이 논문은 공통 노이즈가 있는 선형-이차 평균장(mean-field) 제어 문제에 대해 정확한 정책 경사(또는 모델 프리) 방법의 전역 수렴을 증명하고, 에이전트들이 사회적으로 최적에 가까운 정책을 학습할 수 있으며 이는 유한 모집단에서도 대략적으로 최적임을 보여준다.

ABSTRACT

We investigate reinforcement learning in the setting of Markov decision processes for a large number of exchangeable agents interacting in a mean field manner. Applications include, for example, the control of a large number of robots communicating through a central unit dispatching the optimal policy computed by maximizing an aggregate reward. An approximate solution is obtained by learning the optimal policy of a generic agent interacting with the statistical distribution of the states and actions of the other agents. We first provide a full analysis this discrete-time mean field control problem. We then rigorously prove the convergence of exact and model-free policy gradient methods in a mean-field linear-quadratic setting and establish bounds on the rates of convergence. We also provide graphical evidence of the convergence based on implementations of our algorithms.

연구 동기 및 목표

대규모 교환가능한 에이전트 모집단의 학습으로서 이산 시간에서 평균장 강화학습(MFRL)을 소개한다.
상태와 평균에 선형인 최적 제어를 특징지어 해를 다루기 쉬운 분석과 유한-N 학습과의 연결 고리를 제공한다.
공통 노이즈가 있는 평균장 LQ 설정에서 정확한 정책 경사와 모델 프리 방법의 전역 수렴을 증명한다.
에이전트의 유한 수가 사회적으로 최적에 가까운 제어를 공동으로 학습하는 방법을 보이고, N이 커질수록 이 정책이 거의 최적에 가까워지는 현상을 보인다.

제안 방법

상태가 상태 분포와 제어의 분포에 의존하는 평균장 제어 문제(MFC)를 제시하고(맥케인-브래스-볼스키, McKean-Vlasov 동역학) 이 차와 제어의 2차 비용을 제시한다.
해를 상태와 그 평균에 선형인 최적 제어로 재매개변수화하여 C_y(K)와 C_z(L)의 두 블록으로 분리된 최적화 문제를 이끌어낸다.
완만한 가정 아래 정확한(모델이 알려진) 설정에서 정책 경사의 전역 수렴을 보이고 선형 수렴 속도를 얻는다.
MKV와 모집단 시뮬레이터를 사용하여 모델 프리 설정으로 확장하고 섭동 기반 방법으로 정책 경사를 추정한다.
두 가지 경사 추정 체계를 제시한다: (i) 정확한 MKV 동역학을 가진 MKV 기반 경사 추정기와 (ii) 유한-N 시뮬레이션을 이용한 모집단 기반 추정기로, 적절한 샘플링 매개변수 하에서 수렴을 보장한다.

실험 결과

연구 질문

RQ1정책 경사 방법이 공통 노이즈를 갖는 선형-이차 평균장 제어 문제에서 전역적으로 수렴할 수 있는가?
RQ2최적 평균장 정책으로 수렴하는 모델 프리 경사 추정 체계(MKV 기반 및 모집단 기반)를 어떻게 설계할 수 있는가?
RQ3유한 모집단이 평균장 극한에 대해 어느 정도까지 대략적으로 최적에 해당하는 정책을 학습하는지, 그리고 이질성이 이를 어떻게 영향을 미치는가?
RQ4공통 노이즈가 학습 역학 및 평균장 강화학습의 수렴에 어떤 영향을 미치는가?

주요 결과

정확한 정책 경사와 모델 프리 정책 경사 방법이 평균장 최적점으로 전역적으로 수렴한다는 것을 LQ 평균장 제어 설정에서 보인다.
수렴은 반복 횟수에 대해 선형이며, 적절한 학습률 하에서 최적성의 ε-근방에 도달하기 위해 O(log(1/ε)) 단계가 필요하다.
최적의 평균장 정책은 상태와 그 평균에 선형이며, 이 구조는 유한-N 에이전트에 대해 대략적으로 최적에 근접한 정책을 산출하고, N이 무한대로 가고 모집단의 이질성이 감소함에 따라 근사 오차가 사라진다.
MKV 시뮬레이터를 사용하면 모델을 모르는 경우에도 경사 추정 및 학습이 이론상 수렴을 보장하며 진행될 수 있다(모델 프리).
모든 경우에 모집단 시뮬레이터만 이용 가능한 경우에는 대형 N에서 사회적 비용의 근사 최적화에 수렴하며, 모집단 크기가 커지고 이질성이 감소함에 따라 편향이 사라진다.
수치 실험(감쇠율 γ = 0.9)은 로버스트성을 보여준다: 단일 에이전트는 최적 제어의 둘째 성분은 학습할 수 있지만, 첫째 성분은 x^1 − x̄^N이 N=1일 때 0이므로 학습할 수 없고, 더 큰 N일수록 학습 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.