QUICK REVIEW

[논문 리뷰] Policy Gradient Search: Online Planning and Expert Iteration without Search Trees

Thomas Anthony, Robert Nishihara|arXiv (Cornell University)|2019. 04. 07.

Artificial Intelligence in Games참고 문헌 30인용 수 18

한 줄 요약

이 논문은 검색 트리가 필요 없는 온라인 계획 알고리즘인 정책 기울기 탐색(Policy Gradient Search, PGS)을 소개한다. PGS는 검색 중에 신경망 시뮬레이션 정책을 정책 기울기 업데이트를 통해 적응시켜, 명시적인 검색 트리가 필요 없도록 한다. PGS는 9x9 및 13x13 헥스에서 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)과 경쟁 가능한 성능을 달성하며, 전문가 반복(Expert Iteration)과 결합할 경우 검색 트리나 사전 헥스 지식 없이도 MoHex 2.0을 이긴 첫 번째 탭ูล라 라사(tabula rasa) 에이전트를 생성한다.

ABSTRACT

Monte Carlo Tree Search (MCTS) algorithms perform simulation-based search to improve policies online. During search, the simulation policy is adapted to explore the most promising lines of play. MCTS has been used by state-of-the-art programs for many problems, however a disadvantage to MCTS is that it estimates the values of states with Monte Carlo averages, stored in a search tree; this does not scale to games with very high branching factors. We propose an alternative simulation-based search method, Policy Gradient Search (PGS), which adapts a neural network simulation policy online via policy gradient updates, avoiding the need for a search tree. In Hex, PGS achieves comparable performance to MCTS, and an agent trained using Expert Iteration with PGS was able defeat MoHex 2.0, the strongest open-source Hex agent, in 9x9 Hex.

연구 동기 및 목표

행동 공간이 크거나 연속적인 경우와 같은 고지수 분기율 환경에서 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)의 확장성 한계를 해결하기 위해.
검색 트리나 표 형태의 가치 함수에 의존하지 않고, 온라인에서 시뮬레이션 정책을 적응시키는 탐색 알고리즘을 개발하기 위해.
메모리나 계산 자원 제약으로 인해 MCTS가 비현실적인 환경에서 효과적인 온라인 계획 및 훈련을 가능하게 하기 위해.
정책 기울기 기반 탐색이 MCTS와 경쟁 가능한 성능을 달성하고, 사전 도메인 지식 없이도 헥스와 같은 게임에서 강력한 에이전트를 생성할 수 있도록 하기 위해.

제안 방법

PGS는 각 탐색 반복 동안 정책 기울기 강화학습을 통해 온라인으로 업데이트되는 신경망을 시뮬레이션 정책으로 사용한다.
MCTS와 달리, PGS는 검색 트리 내에서 방문 수나 가치 추정치를 유지하지 않아, 상태 가치의 표 형태 저장이 필요 없게 된다.
시뮬레이션 정책은 예상 수익에 대한 확률적 경사 상승을 통해 향상되며, 현재 탐색에서 샘플링된 궤적을 사용해 REINFORCE 스타일 업데이트를 수행한다.
PGS는 전문가 반복(Expert Iteration, ExIt) 프레임워크에 통합되며, 자기대전 게임을 통해 적응 가능한 PGS 정책으로 롤아웃을 생성하고, 그 결과 정책을 글로벌 정책 네트워크로 정제한다.
함수 근사의 활용을 통해 탐색 중 상태 간의 일반화가 가능해져, 상태가 한 번만 방문되더라도 효과적인 학습이 가능해진다.
PGS는 테스트 시간 계획 및 훈련 시나리오 모두에서 평가되었으며, 9x9 및 13x13 헥스에서 MCTS 및 몬테카를로 탐색(Monte Carlo Search, MCS)과 비교되었다.

실험 결과

연구 질문

RQ1정책 기울기 기반 탐색 알고리즘이 검색 트리 없이도 헥스와 같은 고지수 분기율 게임에서 MCTS 성능을 따라할 수 있는가?
RQ2PGS는 MCTS가 메모리나 계산 자원 제약으로 비현실적인 환경에서 효과적인 온라인 계획을 가능하게 할 수 있는가?
RQ3PGS를 전문가 반복(Expert Iteration)과 결합하면, 검색 트리나 사전 게임 지식 없이도 MoHex 2.0과 같은 강력한 기준 모델을 이길 수 있는 경쟁력 있는 에이전트를 생성할 수 있는가?
RQ4고정된 시뮬레이션 정책을 사용하는 몬테카를로 탐색(Monte Carlo Search, MCS)과 비교할 때, PGS는 계획 강도와 샘플 효율성 측면에서 어떻게 다른가?

주요 결과

PGS는 9x9 및 13x13 헥스에서 MCTS와 경쟁 가능한 성능을 달성했으며, 테스트 시간 계획에서 몬테카를로 탐색(Monte Carlo Search, MCS)보다 뚜렷이 뛰어난 성능을 보였다.
PGS-ExIt는 9x9 헥스에서 첫 번째 수에 따라 4판씩 총 375판 승리, 273판 패배 기록으로 MoHex 2.0을 이겼으며, 55 Elo의 우위를 확보했고, 검색 트리 없이도 이를 달성한 첫 번째 탭룰라 라사 에이전트였다.
제거 실험 결과, ExIt 프레임워크 내에서 PGS-ExIt는 MCS보다 뚜렷이 뛰어난 성능을 보였으며, 적응 가능한 시뮬레이션 정책의 유용성을 확인했다.
결과는 MCTS-ExIt가 전통적인 정책 반복보다 뛰어나며, PGS-ExIt가 사전 헥스 지식 없이도 검색 트리 없이도 강력한 에이전트를 생성할 수 있음을 보여주었다.
PGS는 테스트 시간 계획과 훈련 모두에서 효과적이었으며, 탐색 중 정책 기울기 적응을 통해 복잡한 환경에서 확장 가능하고 일반화 가능한 계획이 가능하다는 점을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.