QUICK REVIEW

[논문 리뷰] M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search

Yelong Shen, Jianshu Chen|arXiv (Cornell University)|2018. 02. 12.

Advanced Graph Neural Networks인용 수 60

한 줄 요약

M-Walk은 순환 신경망(RNN)과 몬테카를로 트리 탐색(MCTS)을 결합하여 지식 기반 보완(KBC)을 위한 그래프 걷기 정책을 학습하고, 공유 파라미터를 통한 Q-러닝으로 희소한 보상을 다룬다.

ABSTRACT

Learning to walk over a graph towards a target node for a given query and a source node is an important problem in applications such as knowledge base completion (KBC). It can be formulated as a reinforcement learning (RL) problem with a known state transition model. To overcome the challenge of sparse rewards, we develop a graph-walking agent called M-Walk, which consists of a deep recurrent neural network (RNN) and Monte Carlo Tree Search (MCTS). The RNN encodes the state (i.e., history of the walked path) and maps it separately to a policy and Q-values. In order to effectively train the agent from sparse rewards, we combine MCTS with the neural policy to generate trajectories yielding more positive rewards. From these trajectories, the network is improved in an off-policy manner using Q-learning, which modifies the RNN policy via parameter sharing. Our proposed RL algorithm repeatedly applies this policy-improvement step to learn the model. At test time, MCTS is combined with the neural policy to predict the target node. Experimental results on several graph-walking benchmarks show that M-Walk is able to learn better policies than other RL-based methods, which are mainly based on policy gradients. M-Walk also outperforms traditional KBC baselines.

연구 동기 및 목표

그래프 위를 걷는 학습을 동기로 삼아 소스와 질의를 주어진 경우 대상 노드를 식별하고, 지식 기반 보완(KBC)에의 응용을 목표로 한다.
희소한 보상과 히스토리 의존 상태를 다루기 위해 RNN 인코더를 몬테카를로 트리 탐색(MCTS)과 결합한다.
공유 파라미터를 갖는 정책과 Q-함수를 학습하여 Q-러닝을 통한 오프-정책 정책 개선을 가능하게 한다.
모델 기반 탐색(MCTS)과 신경학습을 결합하여 보다 나은 궤적 생성을 가능하게 하는 알려진 결정론적 그래프 전이를 활용한다.
합성 및 실제 벤치마크에서 RL 기저 방법과 전통적인 KBC 방법과 비교하여 M-Walk를 평가한다.

제안 방법

전체 방문 노드의 히스토리와 질의를 GRU 기반 RNN 인코더를 통해 상태 표현으로 인코딩하는 그래프 워커 M-Walk를 도입한다.
정책과 Q-값을 공유 파라미터로 공동 모델링하고, 상태 표현과 행동 표현의 내적을 통해 동작 점수를 계산하는 신경망 구조를 사용한다.
그래프의 결정론적이고 알려진 전이 모델을 활용하여prior 정책으로부터 유익한 궤적을 생성하기 위해 PUCT 유사 선택을 가진 MCTS를 사용한다.
MCTS가 생성한 궤적을 사용한 오프-정책 Q-러닝으로 Q-네트워크를 업데이트하면 파라미터 공유로 인해 정책이 간접적으로 향상되며 학습이 개선된다.
테스트 시에는 학습된 정책과 Q-함수와 함께 MCTS를 결합하여 후보 대상 노드를 평가하고 가장 높은 점수를 받는 노드를 선택한다.

실험 결과

연구 질문

RQ1RNN 인코딩된 히스토리와 MCTS가 희소한 보상 환경에서 그래프 위를 걷는 효과적인 경로 학습에 도움이 되는가?
RQ2Q-네트워크와 정책 네트워크 간 파라미터 공유가 MCTS가 생성한 궤적에서의 오프-정책 정책 개선을 가능하게 하는가?
RQ3M-Walk가 NELL995와 WN18RR 같은 벤치마크에서 정책 기울기 RL 방법 및 전통적 KBC 기법과 어떻게 비교되는가?
RQ4훈련 효율성, 궤적 품질 및 전반적 성능에 대한 MCTS 구성 요소(롤아웃, 호라이즌)의 영향은 무엇인가?

주요 결과

M-Walk는 여러 벤치마크에서 기존의 RL 기반 방법 및 전통적 KBC 기법보다 더 나은 정책을 학습한다.
MCTS를 활용한 궤적은 신경 정책만을 사용할 때보다 양의 보상이 더 많이 발생해 희소 보상 환경에서 학습을 돕는다.
공유 파라미터 아키텍처는 오프-정책 Q-러닝 업데이트가 정책을 개선하도록 하며 테스트 시 MCTS는 향상된 정책을 이용한다.
NELL995와 WN18RR에서 M-Walk는 강력한 결과를 달성하고 다수의 지표에서 여러 RL 기반 기법 및 임베딩 기반 방법을 능가한다.
아블레이션 결과에서 M-Walk의 신경 아키텍처가 MINERVA 대비 이득을 제공하고, MCTS는 순수한 정책-기울기 접근법을 넘어 추가 개선을 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.