[논문 리뷰] Thinking Fast and Slow with Deep Learning and Tree Search
Expert Iteration (ExIt)은 계획과 학습을 분리하여 트리 탐색을 전문가로 사용하고, 그 전문가가 가이드하는 탐색으로 수련생의 학습을 이끌어 미래 계획을 개선합니다. 이 방법은 강력한 Hex 성능을 달성하고 MoHex를 이깁니다.
Sequential decision making problems, such as structured prediction, robotic control, and game playing, require a combination of planning policies and generalisation of those plans. In this paper, we present Expert Iteration (ExIt), a novel reinforcement learning algorithm which decomposes the problem into separate planning and generalisation tasks. Planning new policies is performed by tree search, while a deep neural network generalises those plans. Subsequently, tree search is improved by using the neural network policy to guide search, increasing the strength of new plans. In contrast, standard deep Reinforcement Learning algorithms rely on a neural network not only to generalise plans, but to discover them too. We show that ExIt outperforms REINFORCE for training a neural network to play the board game Hex, and our final tree search agent, trained tabula rasa, defeats MoHex 1.0, the most recent Olympiad Champion player to be publicly released.
연구 동기 및 목표
- 계획과 함수 근사를 결합하여 순차적 의사결정을 다루는 방법을 제시한다.
- 전문가 계획과 수련생 일반화를 분리하기 위해 Expert Iteration (ExIt)을 제안한다.
- 계획으로 이끄는 수련생 신경망이 탐색과 학습 효율을 개선하는지 보인다.
- ExIt를 Hex에서 REINFORCE 및 MoHex와 비교하여 경쟁력을 입증한다.
제안 방법
- Expert Iteration (ExIt)을 반복 루프로 정의한다: 자기대국(self-play)로 상태를 수집하고, 모방 학습을 통해 수련생을 학습시키며, 수련생이 이끄는 트리 탐색으로 전문가를 개선한다.
- 전문가를 트리 탐색 알고리즘으로, 수련생을 심층 신경망 정책(및 선택적으로 가치 네트워크)으로 간주한다.
- 모방 학습 목표(CAT 및 트리 정책 목표, TPT)를 사용하여 전문가의 수를 이용해 수련생을 학습시키며; TPT는 비용에 민감하다.
- 온라인 데이터 세트 집계(DAGGER 유사)로 데이터 효율성을 개선하고 재계산을 줄인다.
- 보너스 항을 갖는 보정된 UCT 공식을 통해 수련생 정책으로 트리 탐색에 편향을 준다.
- Leaf 값을 추정하고 롤아웃과 혼합하는 값 네트워크를 도입하는 프레임워크를 확장한다.
- 온라인 분산 ExIt를 시연하고 배치(batch) 변형과 온라인 변형을 REINFORCE 및 MoHex와 비교한다.
실험 결과
연구 질문
- RQ1ExIt가 Hex에서 표준 정책 경사 방법(REINFORCE 등)보다 더 빨리 더 강한 정책을 학습할 수 있는가?
- RQ2계획(전문가)과 일반화(수련생)를 분리하는 것이 학습 효율성과 최종 성능을 향상시키는가?
- RQ3온라인(데이터 세트 집계) 대 배치 ExIt가 데이터 효율성과 안정성에 있어 어떻게 다른가?
- RQ4정책만 있는 네트워크 대 정책 및 가치 네트워크를 사용하는 ExIt가 탐색 강도와 MoHex 같은 강력한 베이스라인에 대한 성능에 어떤 영향을 주는가?
주요 결과
- ExIt는 Hex를 두고 신경망을 훈련시키는 데 REINFORCE보다 우수한 성과를 보였다.
- 최종적으로 아무런 사전 학습이 없는 ExIt 에이전트가 head-to-head에서 MoHex 1.0을 이겼다.
- 트리 정책 목표(TPT)가 모방 학습 중 선택된 행동 목표(CAT)보다 더 강한 성능을 낸다(초기 데이터 이후 Elo 50±13 개선 보고).
- 데이터 세트 집계를 통한 DAgger식 온라인 ExIt가 배치형 ExIt보다 데이터 효율성과 최종 강도를 향상시킨다.
- 정책 네트워크를 이용해 MCTS를 편향시키는 Neural-MCTS는 우세한 정책 네트워크 대비 판단력의 승률을 크게 증가시켰다(예: 강한 정책 네트워크를 사용할 때 97% 승률 대baseline MCTS).
- 수련생에 가치 네트워크를 추가하면 정책만의 ExIt보다 전문가 품질이 크게 향상되어 더 강한 플레이를 이끈다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.