QUICK REVIEW

[논문 리뷰] Suphx: Mastering Mahjong with Deep Reinforcement Learning

Junjie Li, Sotetsu Koyamada|arXiv (Cornell University)|2020. 03. 30.

Artificial Intelligence in Games참고 문헌 13인용 수 85

한 줄 요약

Suphx는 글로벌 보상 예측, 오라클 가이드, 런타임 정책 적응을 통한 심층 강화학습으로 4-player Mahjong을 마스터하여 Tenhou에서 초인적 성능을 달성합니다.

ABSTRACT

Artificial Intelligence (AI) has achieved great success in many domains, and game AI is widely regarded as its beachhead since the dawn of AI. In recent years, studies on game AI have gradually evolved from relatively simple environments (e.g., perfect-information games such as Go, chess, shogi or two-player imperfect-information games such as heads-up Texas hold'em) to more complex ones (e.g., multi-player imperfect-information games such as multi-player Texas hold'em and StartCraft II). Mahjong is a popular multi-player imperfect-information game worldwide but very challenging for AI research due to its complex playing/scoring rules and rich hidden information. We design an AI for Mahjong, named Suphx, based on deep reinforcement learning with some newly introduced techniques including global reward prediction, oracle guiding, and run-time policy adaptation. Suphx has demonstrated stronger performance than most top human players in terms of stable rank and is rated above 99.99% of all the officially ranked human players in the Tenhou platform. This is the first time that a computer program outperforms most top human players in Mahjong.

연구 동기 및 목표

Mahjong을 포함한 복잡한 불완전 정보 다인 게임에서 강력한 AI를 구축하는 동기 부여.
Mahjong 행동을 위한 다수의 전문 모델을 갖춘 심층 CNN 기반 정책 개발.
인간으로부터의 감독 학습과 자기 주도형 RL을 결합하여 성능을 향상시키고자 함.
전역 보상 예측을 도입하여 게임 결과에 맞춘 각 라운드 학습 신호를 제공.
오라클 가이드 및 런타임 정책 적응을 도입하여 학습 속도를 높이고 온라인 플레이를 개선함.

제안 방법

휴먼 로그를 통해 Discard, Riichi, Chow, Pong, Kong의 다섯 가지 행동 특화 CNN 정책 모델을 감독 학습으로 훈련.
분산 환경에서 엔트로피 정규화와 중요 샘플링을 사용하는 정책 그래디언트 강화학습을 활용.
게임 수준의 결과에서 각 라운드 보상을 할당하는 GRU 기반의 글로벌 보상 예측기를 구현.
전체 정보를 가진 오라클 에이전트를 도입하고 완전 정보를 점차 드롭하여 학습을 가이드하는 (oracle guiding) 방법을 도입.
round 동안 현재 초기 핸드에 맞게 오프라인 정책을 적응시키는 파라메트릭 몬테카를로 정책 적응(pMCPA)을 적용.
34 타일 채널의 멀티 채널 CNN 입력 및 앞다리 특징들을 포함해 게임 상태를 인코딩하여 승리 핸드와 점수를 근사화.

실험 결과

연구 질문

RQ1글로벌 보상을 사용하는 심층 RL이 4인 Mahjong에서 최상위 인간 선수들을 능가할 수 있는가?
RQ2오라클 가이드 학습이 표준 RL에 비해 학습 속도를 가속화하는가?
RQ3런타임 정책 적응이 다양한 초기 핸드에 직면했을 때 성능을 개선하는가?
RQ4감독 학습 사전 훈련 후 RL 미세 조정 시 다섯 가지 행동 특화 모델의 성능은 어떠한가?
RQ5글로벌 보상 예측기를 사용하는 것이 정책을 최종 게임 결과와 얼마나 잘 정렬시키는가?

주요 결과

Suphx는 Tenhou에서 10 dan에 도달하고 대다수의 최상 인간 선수들보다 안정적인 순위를 유지합니다.
RL_basic은 감독 학습보다 성능이 향상되며, RL-1 및 RL-2는 RL-basic 대비 점진적 이득을 제공합니다.
글로벌 보상 예측은 에이전트가 단순한 라운드 점수가 아닌 최종 게임 순위를 최적화하도록 돕습니다.
오라클 가이딩은 RL 학습을 가속화하고 표준 RL보다 더 나은 정책을 생성합니다.
런타임 정책 적응(pMCPA)은 라운드별 적응에서 측정 가능한 이득을 제공하며, 테스트 설정에서 66%의 승률 향상을 보입니다.
오프라인 평가에서 감독 모델의 높은 정확도가 나타납니다 (Discard 76.7%, Riichi 85.7%, Chow 95.0%, Pong 91.9%, Kong 94.0%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.