[論文レビュー] M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search
M-Walk は再帰型ニューラルネットワークと Monte Carlo Tree Search を組み合わせて、知識ベース補完のためのグラフ走行ポリシーを学習し、オフポリシー Q 学習による共有パラメータで sparse rewards に対応します。
Learning to walk over a graph towards a target node for a given query and a source node is an important problem in applications such as knowledge base completion (KBC). It can be formulated as a reinforcement learning (RL) problem with a known state transition model. To overcome the challenge of sparse rewards, we develop a graph-walking agent called M-Walk, which consists of a deep recurrent neural network (RNN) and Monte Carlo Tree Search (MCTS). The RNN encodes the state (i.e., history of the walked path) and maps it separately to a policy and Q-values. In order to effectively train the agent from sparse rewards, we combine MCTS with the neural policy to generate trajectories yielding more positive rewards. From these trajectories, the network is improved in an off-policy manner using Q-learning, which modifies the RNN policy via parameter sharing. Our proposed RL algorithm repeatedly applies this policy-improvement step to learn the model. At test time, MCTS is combined with the neural policy to predict the target node. Experimental results on several graph-walking benchmarks show that M-Walk is able to learn better policies than other RL-based methods, which are mainly based on policy gradients. M-Walk also outperforms traditional KBC baselines.
研究の動機と目的
- ソースとクエリが与えられたとき target ノードを識別するためにグラフを歩く学習を動機づけ、知識ベース補完(KBC)への応用を図る。
- RNN エンコーダを組み合わせて MCTS を用いて sparse rewards と履歴依存状態に対処する。
- 共有パラメータを用いてポリシーと Q 関数を学習し、Q 学習によるオフポリシー方策改善を可能にする。
- モデルベースの探索(MCTS)とニューラル学習を結びつけ、既知の決定論的なグラフ遷移を活用して軌跡生成を改善する。
- 合成データおよび実世界のベンチマークで M-Walk を RL のベースラインおよび従来の KBC 手法と比較評価する。
提案手法
- 走査履歴とクエリをGRUベースの RNN エンコーダで状態表現へと連結するグラフ走行エージェント M-Walk を導入する。
- パラメータを共有したポリシーと Q 値を同時にモデリングし、状態表現と行動表現の内積を通じてアクションスコアを計算するニューラルアーキテクチャを用いる。
- グラフの決定論的な遷移モデルを活用し、 Prior policy から有益な軌跡を生成する PUCT に類する選択を用いた MCTS を用いる。
- MCTS によって生成された軌跡を用いたオフポリシー Q 学習で Q ネットワークを更新し、パラメータ共有によりポリシーの改善を間接的に促進する。
- テスト時には学習済みポリシーと Q 関数を組み合わせて候補ノードをスコア付けし、最高スコアのノードを選択する。
実験結果
リサーチクエスチョン
- RQ1RNN でエンコードされた履歴と MCTS が、知識ベース補完タスクにおける sparse rewards の下でグラフ上の効果的な走行を学習するのに役立つか。
- RQ2Q ネットワークとポリシーネットワークのパラメータ共有が、MCTS 生成軌跡からの効果的なオフポリシー方策改善を可能にするか。
- RQ3M-Walk は NELL995 および WN18RR のようなベンチマークで、ポリシー勾配法 RL や伝統的な KBC ベースラインと比較してどうか。
- RQ4トレーニング効率、軌跡の質、全体的な性能に対する MCTS の構成要素(ロールアウト、ホライズン)の影響はどうか。
主な発見
- M-Walk は複数のベンチマークで、従来の RL ベース手法および従来の KBC ベースラインよりも優れたポリシーを学習する。
- MCTS による軌跡はニューラルポリシー単独よりも正の報酬を多く生み出し、 sparsrewards の設定での学習を助ける。
- 共有パラメータアーキテクチャはオフポリシー Q 学習の更新をポリシー改善へとつなぎ、テスト時には改善されたポリシーを用いた MCTS が実行される。
- NELL995 および WN18RR で、M-Walk は強力な結果を出し、複数の指標でいくつかの RL ベースラインおよび埋め込みベースの手法を上回る。
- アブレーションにより、MINERVA を上回る知能学習アーキテクチャ上の改善と、純粋なポリシー勾配アプローチを超える追加改善を MCTS がもたらすことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。