QUICK REVIEW

[논문 리뷰] Deep Fictitious Play for Finding Markovian Nash Equilibrium in Multi-Agent Games

Jiequn Han, Ruimeng Hu|arXiv (Cornell University)|2019. 12. 04.

Sports Analytics and Performance참고 문헌 46인용 수 23

한 줄 요약

이 논문은 대규모 N-플레이어 스토하스틱 미분 게임에서 마코비안 나시 균형을 계산하기 위해 허구적 플레이(fictitious play)와 딥 백워드 스토하스틱 미분 방정식(deep BSDE)을 조합한 딥 허구적 플레이 알고리즘을 제안한다. 각 플레이어의 전략을 고정된 타 플레이어 전략을 가정하고 반복적으로 해리된 HJB 방정식을 딥 러닝을 사용해 풀음으로써, 차원의 저주를 극복하고 고차원, 이질적, 리스크 민감한 게임에 대해서도 정확한 균형을 찾을 수 있다. 공통 노이즈가 존재하는 50명의 은행 간 상호차금 대출 게임에서 성공적으로 검증되었다.

ABSTRACT

We propose a deep neural network-based algorithm to identify the Markovian Nash equilibrium of general large $N$-player stochastic differential games. Following the idea of fictitious play, we recast the $N$-player game into $N$ decoupled decision problems (one for each player) and solve them iteratively. The individual decision problem is characterized by a semilinear Hamilton-Jacobi-Bellman equation, to solve which we employ the recently developed deep BSDE method. The resulted algorithm can solve large $N$-player games for which conventional numerical methods would suffer from the curse of dimensionality. Multiple numerical examples involving identical or heterogeneous agents, with risk-neutral or risk-sensitive objectives, are tested to validate the accuracy of the proposed algorithm in large group games. Even for a fifty-player game with the presence of common noise, the proposed algorithm still finds the approximate Nash equilibrium accurately, which, to our best knowledge, is difficult to achieve by other numerical algorithms.

연구 동기 및 목표

기존 방법이 차원의 저주로 인해 실패하는 대규모 N-플레이어 스토하스틱 미분 게임에서 마코비안 나시 균형을 계산하기 위한 확장 가능한 수치 알고리즘을 개발하는 것.
대칭성과 공통 노이즈 또는 중간 크기의 N에서 실패하는 평균장 이론의 한계를 해결하기 위해 일반적인 이질성과 노이즈 구조를 허용하는 것.
허구적 플레이에서 발생하는 개별 의사결정 문제로부터 유도되는 고차원, 결합된 헬름홀츠-자코비-벨만(HJB) 방정식을 딥 러닝을 활용해 해결하는 것.
HJB 프레임워크를 통해 딥 러닝 기반 방법의 적용 범위를 개방형 균형에서 피드백(마코비안) 전략으로 확장하는 것.
해석적 해가 존재하는지 여부에 관계없이 문제를 검증하기 위해 비선형 드리프트와 리스크 민감한 목표 함수를 포함한 문제에 대해 검증하는 것.

제안 방법

각 플레이어의 전략이 고정되어 있다고 가정할 때, 허구적 플레이를 통해 N-플레이어 스토하스틱 미분 게임을 N개의 분리된 개별 의사결정 문제로 분해한다.
각 개별 의사결정 문제를 마코비안 정보 하에서 최적 피드백 제어를 특징짓는 준선형 헬름홀츠-자코비-벨만(HJB) 방정식으로 모델링한다.
딥 러닝을 사용해 가치 함수와 그 도함수를 근사하기 위해 딥 BSDE 방법을 활용하여 각 HJB 방정식을 수치적으로 해결한다.
최신 상대 전략 추정치를 사용해 피드백 루프에서 모든 플레이어의 전략을 반복적으로 업데이트하며, 각 플레이어의 최적 반응을 개선한다.
대칭 게임의 경우, 모든 플레이어 간에 하나의 신경망을 공유함으로써 계산 비용을 줄이고, 반복마다 하나의 HJB 방정식만 풀게 한다.
10,000개의 경로를 사용한 몬테카를로 시뮬레이션을 통해 학습된 전략을 검증하며, 종료 상태와 제어의 경험적 분포를 알려진 또는 기대되는 분포와 비교한다.

실험 결과

연구 질문

RQ1딥 허구적 플레이 알고리즘이 이질적 플레이어와 공통 노이즈가 존재하는 대규모 N-플레이어 스토하스틱 미분 게임에서 마코비안 나시 균형을 정확하게 계산할 수 있는가?
RQ2특히 비선형 드리프트나 리스크 민감한 목표 함수가 존재하는 경우, 이 알고리즘이 분석적 해가 없는 게임에서 어떻게 성능을 발휘하는가?
RQ3伝통적 수치적 방법에 비해 이 알고리즘이 차원의 저주를 얼마나 효과적으로 극복할 수 있는가?
RQ4해석적 해가 존재하지 않는 경우에도, N=50명의 플레이어를 가진 대칭 게임에서 알고리즘이 정확성과 효율성을 유지할 수 있는가?
RQ5공통 노이즈가 존재할 경우 알고리즘의 수렴성과 정확도에 어떤 영향을 미치며, 평균장 게임 근사치에 비해 여전히 슈퍼어리어블한가?

주요 결과

해석적 해가 존재하지 않는 50명의 은행 간 상호차금 대출 게임에서 공통 노이즈가 존재함에도 불구하고, 알고리즘이 높은 정확도로 나시 균형을 성공적으로 계산했다.
선형 드리프트 케이스에서는 종료 상태와 제어의 경험적 분포가 진정한 가우시안 분포와 매우 유사했으며, 첨도(kurtosis) 값이 약 3에 가까워 해의 정확성을 확인했다.
비선형 드리프트 케이스(세제곱 항 포함)에서는 비가우시안 행동을 정확히 포착했다: 종료 상태 첨도는 2.72 < 3이며 제어 첨도는 2.36 < 3으로, 가우시안보다 더 무거운 尾를 가지며 이는 이론적 기대와 일치한다.
모든 테스트 사례에서 학습된 전략과 진정한 균형 간의 편차가 최소화되어 정확성과 안정성이 유지되었다.
특히 플레이어가 이질적 이거나 공통 노이즈가 존재하는 경우, 유한한 N에 대해 평균장 게임 근사치에 비해 정확도 면에서 뚜렷한 슈퍼어리어블 성능을 보였다.
대칭성과 공유된 신경망을 활용함으로써 계산 비용을 N 배 감소시켜 대규모 시뮬레이션을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.