QUICK REVIEW

[논문 리뷰] Global Convergence of Policy Gradient for Sequential Zero-Sum Linear Quadratic Dynamic Games

Jingjing Bu, Lillian J. Ratliff|arXiv (Cornell University)|2019. 11. 12.

Reinforcement Learning in Robotics참고 문헌 12인용 수 26

한 줄 요약

이 논문은 스택엘버그 지배 구조를 모델링한 순차적 제로섬 선형-제곱형 동적 게임를 위한 투영 자유, 리더-팔로워 정책 기울기 알고리즘을 제안한다. 리더가 자연 기울기 하강/상승을 사용할 경우 전역적인 하향 수렴을 보장하고, 준-뉴턴 정책 업데이트를 사용할 경우 전역적인 이차 수렴을 달성한다. 안정성 조건을 만족하고 투영 단계 없이도 성립한다.

ABSTRACT

We propose projection-free sequential algorithms for linear-quadratic dynamics games. These policy gradient based algorithms are akin to Stackelberg leadership model and can be extended to model-free settings. We show that if the leader performs natural gradient descent/ascent, then the proposed algorithm has a global sublinear convergence to the Nash equilibrium. Moreover, if the leader adopts a quasi-Newton policy, the algorithm enjoys a global quadratic convergence. Along the way, we examine and clarify the intricacies of adopting sequential policy updates for LQ games, namely, issues pertaining to stabilization, indefinite cost structure, and circumventing projection steps.

연구 동기 및 목표

순차적 제로섬 선형-제곱형 동적 게임에 대해 안정적이고 전역 수렴 보장이 되는 정책 기울기 방법을 설계하는 데 도전한다.
특히 정책 공간이 개방되어 있고 비정규 비용 구조가 존재함으로써 발생하는 순차적 정책 업데이트의 안정성 문제를 명확히 한다.
투영 단계 없이도 무한 시간, 할인 없음 LQ 게임에서 나시 균형으로 수렴하도록 보장하는 알고리즘을 개발한다.
스택엘버그 지배 모델을 활용하여 정책 기울기 방법을 모델 자유 설정으로 확장한다.
자연 기울기 및 준-뉴턴 업데이트에 따라 각각 전역 하향 수렴 및 이차 수렴 보장을 이론적으로 제공한다.

제안 방법

한 명의 플레이어가 리더로, 다른 플레이어가 팔로워로 작동하는 스택엘버그 지배 모델을 영감으로 삼은 리더-팔로워 정책 업데이트 체계를 수립한다.
리더의 전역 하향 수렴을 보장하기 위해 자연 기울기 하강/상승을 적용한다.
리더의 전역 이차 수렴 속도를 확보하기 위해 준-뉴턴 정책 업데이트를 채택한다.
제로섬 LQ 게임에서 나시 균형의 이론적 기초로 일반화된 대수적 린카티 방정식(GARE)을 사용한다.
연속성과 개방성 논증을 통해 안정성을 확보한다: 안정화 피드백 이득의 집합은 개방되어 있어, 작은 정책 업데이트가 안정성을 유지함을 보장한다.
비용-지출 행렬의 경계와 고유값 연속성에 기반해 충분히 작은 스텝 크기로 폐쇄형 시스템의 셸러 안정성을 유지함을 증명함으로써 투영 단계를 회피한다.

실험 결과

연구 질문

RQ1투영 단계 없이도 순차적 제로섬 LQ 동적 게임에서 정책 기울기 방법이 전역 수렴 가능할 수 있는가?
RQ2리더 역할에서 자연 기울기 대비 준-뉴턴 업데이트를 사용할 경우 도달 가능한 수렴 속도는 무엇인가?
RQ3정책 공간이 개방되어 있고 비용 함수가 비정규일 경우 순차적 정책 업데이트 중 안정성이 어떻게 유지될 수 있는가?
RQ4스택엘버그 지배 구조는 할인 없고 유계가 아닌 비용을 갖는 LQ 게임에서 전역 수렴을 어떻게 가능하게 하는가?
RQ5제안된 알고리즘은 이론적 수렴 보장을 유지하면서 모델 자유 설정으로 확장될 수 있는가?

주요 결과

제안된 리더-팔로워 정책 기울기 알고리즘은 리더가 자연 기울기 하강/상승을 사용할 경우 전역 하향 수렴을 달성한다.
리더가 준-뉴턴 정책 업데이트를 사용할 경우 알고리즘은 나시 균형으로 전역 이차 수렴을 달성한다.
충분히 작은 스텝 크기로 폐쇄형 시스템의 셸러 안정성이 계속 유지됨을 증명함으로써 투영 단계를 피한다.
안정화 피드백 이득의 집합은 개방되어 있어, 작은 정책 업데이트가 안정성을 유지하고 발산을 방지함을 보장한다.
수렴 결과는 할인 없고 무한 시간 LQ 게임 설정에서 성립하며, 비정규 비용 행렬이 존재할 수 있음에도 불구하고 성립한다.
이론적 프레임워크는 모델 자유 강화 학습 설정으로의 확장을 지원하며, 이론적 보장을 갖춘 다중 에이전트 RL에 대한 기준이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.