QUICK REVIEW

[論文レビュー] M-Walk: Learning to Walk in Graph with Monte Carlo Tree Search

Yelong Shen, Jianshu Chen|arXiv (Cornell University)|Feb 12, 2018

Advanced Graph Neural Networks被引用数 2

ひとこと要約

M-Walkは、知識ベース補完（KBC）のためのグラフウォークポリシーを学習するために、深層再帰ニューラルネットワーク（RNN）とモンテカルロツリー探索（MCTS）を組み合わせた強化学習エージェントを提案する。MCTSを用いて高報酬の軌道を生成し、オフポリシーQ学習によりRNNポリシーを改善することで、報酬が疎な状況下でも、ポリシーグラデント法や従来のKBCベースラインを上回る優れた性能を達成する。

ABSTRACT

Learning to walk over a graph towards a target node for a given input query and a source node is an important problem in applications such as knowledge base completion (KBC). It can be formulated as a reinforcement learning (RL) problem with a known state transition model. To overcome the challenge of sparse reward, we develop a graph-walking agent called M-Walk, which consists of a deep recurrent neural network (RNN) and Monte Carlo Tree Search (MCTS). The RNN encodes the state (i.e., history of the walked path) and maps it separately to a policy, a state value and state-action Q-values. In order to effectively train the agent from sparse reward, we combine MCTS with the neural policy to generate trajectories yielding more positive rewards. From these trajectories, the network is improved in an off-policy manner using Q-learning, which modifies the RNN policy via parameter sharing. Our proposed RL algorithm repeatedly applies this policy-improvement step to learn the entire model. At test time, MCTS is again combined with the neural policy to predict the target node. Experimental results on several graph-walking benchmarks show that M-Walk is able to learn better policies than other RL-based methods, which are mainly based on policy gradients. M-Walk also outperforms traditional KBC baselines.

研究の動機と目的

知識ベース補完（KBC）のためのグラフウォークタスクにおける報酬の疎らさという課題に対処すること。
グラフ構造の環境における疎な報酬信号から効果的に探索し学習する強化学習エージェントを開発すること。
モンテカルロツリー探索（MCTS）と深層RNNポリシーを組み合わせ、高品質な軌道を生成して学習すること。
パラメータ共有を用いたオフポリシーQ学習によりポリシーネットワークを改善し、安定的かつ効率的な学習を可能にすること。
グラフウォークベンチマークにおいて、既存のRLベースおよび従来のKBC手法を上回る性能を達成すること。

提案手法

エージェントは、歩いたパスの履歴を符号化し、ポリシー、状態価値、状態行動Q値を出力する深層再帰ニューラルネットワーク（RNN）を用いる。
訓練中はモンテカルロツリー探索（MCTS）を用いて、より高い報酬をもたらす軌道を展開し、サンプル効率を向上させる。
MCTSが生成した軌道を用いてオフポリシーQ学習によりRNNポリシーを更新することで、疎な報酬からの効率的な学習が可能になる。
RNNのポリシー、価値、Q値ヘッドの間でパラメータ共有を実施することで、訓練の安定化と一般化性能の向上を図る。
訓練プロセスは、MCTSの展開とQ学習の更新を交互に繰り返すことで、ポリシーを段階的に改善する。
テスト時においても、MCTSを訓練済みのRNNポリシーと再び組み合わせ、最も有望なパスを選択することでターゲットノードを予測する。

実験結果

リサーチクエスチョン

RQ1MCTSと深層RNNを組み合わせることで、報酬が疎なグラフウォークタスクにおけるサンプル効率と性能が向上するか？
RQ2MCTSが生成する軌道にオフポリシーQ学習を統合することで、オンポリシーのポリシーグラデント法と比較して、ポリシー学習がどのように向上するか？
RQ3提案されたM-Walkエージェントは、既存の強化学習ベースのベンチマークにおいてどの程度優れた性能を発揮するか？
RQ4神経ポリシーとMCTSを組み合わせることで、グラフウォークベンチマークにおける一般化性能とターゲットノード予測精度が向上するか？
RQ5提案手法は、従来のKBCベースラインを、正確性と頑健性の面で上回ることができるか？

主な発見

M-Walkは、ポリシーグラデントに依存する他の強化学習ベースの手法と比較して、グラフウォークベンチマークで優れた性能を達成する。
MCTSとRNNポリシーの統合は、サンプル効率を著しく向上させ、疎な報酬からの学習を可能にする。
M-Walkは、テストされたグラフウォークタスクにおいて、従来の知識ベース補完ベースラインを上回る。
パラメータ共有を用いたオフポリシーQ学習の更新は、訓練中における安定的かつ効果的なポリシー改善を実現する。
テスト時におけるMCTSとニューラルポリシーの組み合わせにより、高報酬のパスを探索することで、ターゲットノードの正確な予測が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。