QUICK REVIEW

[논문 리뷰] M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

Yelong Shen, Jianshu Chen|arXiv (Cornell University)|2018. 02. 12.

Advanced Graph Neural Networks인용 수 2

한 줄 요약

M-Walk는 지식 기반 보완(KBC)을 위한 그래프 워킹 정책을 학습하기 위해 딥 순환 신경망(RNN)과 몬테카를로 트리 탐색(MCTS)을 결합한 강화학습 에이전트를 제안한다. MCTS를 통해 고보상 경로를 생성하고, 오프-정책 Q-학습을 통해 RNN 정책을 향상시킴으로써, 정책 기반 강화학습 방법과 전통적인 KBC 기반 방법에 비해 그래프 워킹 벤치마크에서 뛰어난 성능을 달성한다.

ABSTRACT

Learning to walk over a graph towards a target node for a given input query and a source node is an important problem in applications such as knowledge base completion (KBC). It can be formulated as a reinforcement learning (RL) problem with a known state transition model. To overcome the challenge of sparse reward, we develop a graph-walking agent called M-Walk, which consists of a deep recurrent neural network (RNN) and Monte Carlo Tree Search (MCTS). The RNN encodes the state (i.e., history of the walked path) and maps it separately to a policy, a state value and state-action Q-values. In order to effectively train the agent from sparse reward, we combine MCTS with the neural policy to generate trajectories yielding more positive rewards. From these trajectories, the network is improved in an off-policy manner using Q-learning, which modifies the RNN policy via parameter sharing. Our proposed RL algorithm repeatedly applies this policy-improvement step to learn the entire model. At test time, MCTS is again combined with the neural policy to predict the target node. Experimental results on several graph-walking benchmarks show that M-Walk is able to learn better policies than other RL-based methods, which are mainly based on policy gradients. M-Walk also outperforms traditional KBC baselines.

연구 동기 및 목표

지식 기반 보완(KBC)을 위한 그래프 워킹 작업에서 희박한 보상 문제를 해결하기 위해.
그래프 구조 환경에서 희박한 보상 신호로부터 효과적으로 탐색하고 학습할 수 있는 강화학습 에이전트를 개발하기 위해.
몬테카를로 트리 탐색(MCTS)과 딥 RNN 정책을 결합하여 훈련을 위한 고품질의 경로를 생성하기 위해.
파rameter 공유를 활용한 오프-정책 Q-학습을 통해 정책 네트워크를 향상시켜 안정적이고 효율적인 학습을 가능하게 하기 위해.
기존의 RL 기반 및 전통적인 KBC 방법에 비해 그래프 워킹 벤치마크에서 더 뛰어난 성능을 달성하기 위해.

제안 방법

에이전트는 걸었던 경로의 역사를 인코딩하고 정책, 상태 가치, 상태-행동 Q-값을 생성하기 위해 딥 순환 신경망(RNN)을 사용한다.
훈련 중에 몬테카를로 트리 탐색(MCTS)을 사용하여 더 높은 보상을 얻는 경로를 전개함으로써 샘플 효율성을 향상시킨다.
MCTS가 생성한 경로를 사용하여 오프-정책 Q-학습을 통해 RNN 정책을 업데이트함으로써 희박한 보상으로부터 효율적으로 학습할 수 있다.
RNN의 정책, 가치, Q-값 헤드 간에 파라미터 공유를 적용하여 학습 안정성 향상과 일반화 능력 향상을 도모한다.
훈련 과정은 MCTS 전개와 Q-학습 업데이트를 번갈아가며 정책을 반복적으로 향상시킨다.
테스트 시점에는 다시 MCTS와 훈련된 RNN 정책을 조합하여 가장 유망한 경로를 선택함으로써 대상 노드를 예측한다.

실험 결과

연구 질문

RQ1MCTS와 딥 RNN을 결합함으로써 희박한 보상이 있는 그래프 워킹 작업에서 샘플 효율성과 성능 향상이 가능할까?
RQ2MCTS가 생성한 경로에 오프-정책 Q-학습을 통합함으로써 온-정책 정책 기반 강화학습 방법에 비해 정책 학습이 어떻게 향상되는가?
RQ3제안된 M-Walk 에이전트가 지식 기반 보완에서 기존의 강화학습 기반 벤치마크를 얼마나 뛰어나게 성능을 내는가?
RQ4신경 정책와 함께 MCTS를 사용할 경우 그래프 워킹 벤치마크에서 일반화 능력과 대상 노드 예측 정확도가 향상되는가?
RQ5제안된 방법이 전통적인 KBC 기반 방법에 비해 그래프 워킹 작업에서 정확도와 내구성 측면에서 슈퍼리어한 성능을 낼 수 있는가?

주요 결과

M-Walk는 정책 기반 강화학습 방법에 의존하는 다른 RL 기반 방법들에 비해 그래프 워킹 벤치마크에서 뛰어난 성능을 달성한다.
MCTS와 RNN 정책의 통합은 샘플 효율성을 크게 향상시키고 희박한 보상으로부터의 학습을 가능하게 한다.
M-Walk는 테스트된 그래프 워킹 작업에서 전통적인 지식 기반 보완 기반 방법을 모두 압도한다.
파라미터 공유를 통한 오프-정책 Q-학습 업데이트는 학습 중 안정적이고 효과적인 정책 향상 결과를 이끌어낸다.
테스트 시점에 MCTS와 신경 정책을 조합함으로써 고보상 경로를 탐색함으로써 대상 노드의 정확한 예측이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.