Skip to main content
QUICK REVIEW

[논문 리뷰] Beating the World's Best at Super Smash Bros. with Deep Reinforcement Learning

Vlad Firoiu, Whitney, William F.|arXiv (Cornell University)|2017. 02. 21.
Reinforcement Learning in Robotics참고 문헌 1인용 수 30
한 줄 요약

이 논문은 초현실적이고 부분 관측 가능한 다중 플레이어 전투 게임인 슈퍼 스매시 브러더스 마이트에서 최고의 인간 플레이어를 능가하는 딥 강화학습 에이전트를 제시한다. 메모리 기반 상태 표현과 지연된 동작 처리를 결합한 듀얼링 DQN 및 PPO 알고리즘을 사용함으로써, 비정상적인 상대와 프레임 단위 반응 속도의 도전 과제에도 불구하고 초인적 성능을 달성한다.

ABSTRACT

There has been a recent explosion in the capabilities of game-playing artificial intelligence. Many classes of RL tasks, from Atari games to motor control to board games, are now solvable by fairly generic algorithms, based on deep learning, that learn to play from experience with minimal knowledge of the specific domain of interest. In this work, we will investigate the performance of these methods on Super Smash Bros. Melee (SSBM), a popular console fighting game. The SSBM environment has complex dynamics and partial observability, making it challenging for human and machine alike. The multi-player aspect poses an additional challenge, as the vast majority of recent advances in RL have focused on single-agent environments. Nonetheless, we will show that it is possible to train agents that are competitive against and even surpass human professionals, a new result for the multi-player video game setting.

연구 동기 및 목표

  • 슈퍼 스매시 브러더스 마이트와 같은 복잡하고 다중 플레이어이며 부분 관측 가능한 비디오 게임에 딥 강화학습을 확장하기 위해.
  • 학습 중인 상대방이 존재해 환경 역학이 변화하는 비정상적 상대의 과제를 해결하기 위해.
  • 고수준의 실시간 전투 게임에서 정상적인 인간 플레이어를 능가할 수 있는 에이전트를 개발하기 위해.
  • 인간과 유사한 동작 지연과 제한된 인지 능력을 갖춘 에이전트를 훈련시키는 가능성 탐색하기 위해.
  • 희박한 보상 환경에서 내재적 탐색과 보상 형상화의 효과성 평가하기 위해.

제안 방법

  • 에이전트는 원시 픽셀이 아닌 게임 메모리에서 유도된 상태 표현(위치, 속도, 동작 상태)을 사용하여 정밀한 상태 관측을 가능하게 한다.
  • 학습 안정성을 위해 경험 재생과 타겟 네트워크를 사용하는 듀얼링 딥 Q 네트워크(DQN)와 프록실 팔리시 옵티마이제이션(PPO)을 핵심 RL 알고리즘으로 사용한다.
  • 행동 지연은 마지막 k+1프레임과 해당 동작을 네트워크에 입력하여 처리하며, 2~4프레임 지연을 처리할 수 있도록 한다.
  • 보상 함수는 탈락에 +1/-1을 부여하고, 피해량 차이(당신이 가한 피해 - 입은 피해)를 가중치를 두어 조합함으로써 희박한 보상에서의 학습을 향상시킨다.
  • 탐색은 PPO의 엔트로피 정규화와 DQN의 온도 스케일링을 통해 제어되며, 엔트로피는 정책 다양성의 대체 지표로 사용된다.
  • 대회 조건을 시뮬레이션하기 위해 몇 초마다 에피소드를 종료하고, 훈련에는 무한 시간 모드를 사용한다.

실험 결과

연구 질문

  • RQ1딥 강화학습 에이전트는 슈퍼 스매시 브러더스 마이트와 같은 복잡하고 다중 플레이어이며 부분 관측 가능한 전투 게임에서 초인적 성능을 달성할 수 있는가?
  • RQ2상대방도 학습하는 비정상적 환경에서 표준 딥 강화학습 알고리즘이 어떻게 작동하는가?
  • RQ3희박한 종료 보상 환경에서 내재적 탐색과 보상 형상화는 얼마나 학습을 향상시킬 수 있는가?
  • RQ4행동 지연(예: 2프레임 대비 10프레임)은 에이전트 성능과 학습 안정성에 어떤 영향을 미치는가?
  • RQ5비순환적이고 피드포워드 네트워크는 실시간 전투에서 인간과 유사한 반응 시간과 예측 능력을 효과적으로 시뮬레이션할 수 있는가?

주요 결과

  • 에이전트는 경쟁 매치에서 10명 이상의 높은 등급의 인간 플레이어를 능가하는 초인적 성능을 달성했다.
  • 듀얼링 DQN과 PPO 에이전트 모두 고정된 상대(게임 내 AI 및 벤치마크 네트워크)를 모두 능가했다.
  • 행동 지연이 6~10프레임을 초과할 경우 성능이 급격히 떨어져, 지연된 동작 실행에서 효과적인 학습을 위한 임계점이 존재하는 것으로 나타났다.
  • 높은 평균 정책 엔트로피에도 불구하고 에이전트가 종종 반복적으로 행동하는 경향을 보여, 엔트로피만으로는 진정된 탐색 다양성의 지표로 부적절함을 시사한다.
  • 피해 기반 보상 형상화 도입으로, 탈락 보상에만 의존하는 경우에 비해 학습 효율성이 크게 향상되었다.
  • 순환 네트워크는 최적화 문제로 인해 성공적으로 훈련되지 않았으며, 고차원적 실시간 환경에서 기억을 모델링하는 데의 과제를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.