QUICK REVIEW

[論文レビュー] Causal Discovery with Reinforcement Learning

Shengyu Zhu, Ignavier Ng|arXiv (Cornell University)|Jun 11, 2019

Bayesian Modeling and Causal Inference参考文献 53被引用数 87

ひとこと要約

本論文はニューラルエンコーダ-デコーダ（Transformer風）を用いてDAGを生成し、厳密性ペナルティの下でスコアベースの報酬を最大化するグラフを探索するために強化学習を用い、柔軟なスコア関数と有限サンプルの下でDAG発見を改善します。

ABSTRACT

Discovering causal structure among a set of variables is a fundamental problem in many empirical sciences. Traditional score-based casual discovery methods rely on various local heuristics to search for a Directed Acyclic Graph (DAG) according to a predefined score function. While these methods, e.g., greedy equivalence search, may have attractive results with infinite samples and certain model assumptions, they are usually less satisfactory in practice due to finite data and possible violation of assumptions. Motivated by recent advances in neural combinatorial optimization, we propose to use Reinforcement Learning (RL) to search for the DAG with the best scoring. Our encoder-decoder model takes observable data as input and generates graph adjacency matrices that are used to compute rewards. The reward incorporates both the predefined score function and two penalty terms for enforcing acyclicity. In contrast with typical RL applications where the goal is to learn a policy, we use RL as a search strategy and our final output would be the graph, among all graphs generated during training, that achieves the best reward. We conduct experiments on both synthetic and real datasets, and show that the proposed approach not only has an improved search ability but also allows a flexible score function under the acyclicity constraint.

研究の動機と目的

観測データからの因果構造学習を、対照実験が不可能な場合に動機づける。
事前に定義されたスコアを最大化するDAGを探索するためのニューラル組合せ最適化アプローチを提案する。
罰則項を介して非循環性制約を統合し、適切な罰則下でハードな循環性と等価になることを示す。
従来のスコアベースの手法よりも、合成データと実データの両方で探索の効果と柔軟性が向上することを示す。

提案手法

エンコーダ-デコーダ網は観測データのランダム化サブセットからDAGの二値隣接行列を生成する。
エンコーダは変数間の相互作用を捉えるためにTransformerスタイルの自己注意エンコーダを使用する。
デコーダはエンコーダ出力間の対ペアスコアg_ijを計算し、ブ Bernoulli機構を介してサンプルし、隣接行列の要素を形成する（i != j）。
スコアベースの報酬は、事前定義されたDAGスコア（例：BIC）と循環性ペナルティh(A)および非DAGグラフの指標を組み合わせたものになる。
循環性はh(A) = trace(exp(A)) - d およびDAG出力を保証する追加の指標ペナルティを用いて強制される。
方策勾配はアクター-クリティック構成（クリティックを用いたREINFORCE）でネットワークを訓練し、期待報酬を最大化する。
最終グラフは訓練中に観測された最高スコアのDAGとして採用され、偽陽性を減らすために剪定されることがある。

実験結果

リサーチクエスチョン

RQ1循環性制約の下でDAG発見のスコアベース目的を最適化する探索戦略として、強化学習を効果的に利用できるか。
RQ2RLベースのアプローチは、GES、PCなどの伝統的方法よりも探索を改善するとともに、さまざまなスコア関数（例：BIC）や回帰モデルを柔軟に使用できるか。
RQ3提案手法は有限サンプル下で線形ガウス、LiNGAM、非線形（2次）因果モデルでどう機能するか。
RQ4大規模なグラフにおける循環性ペナルティが学習効率、DAGの品質、エッジの希少性に与える影響はどのようになるか。

主な発見

RLとBICベースのスコアリング（RL-BIC2）はLiNGAMおよび線形ガウス設定の12ノード実験で真の因果グラフを回復する。
RL-BIC2は一般に従来の手法（GES、PC）やいくつかのニューラルベースのベースラインを、FDR、TPR、SHDの観点で上回る。
より大規模なグラフ（d=30）でLiNGAMデータに対して、RL-BIC2は競争力のあるFDRと高いTPRを達成し、SHDは代替案と同等かそれ以上。
非線形二次モデルでは、RL-BIC2は非常に高いTPR（約0.98）と極めて低いSHDを達成し、いくつかのベースライン（NOTEARS系、ICA-LiNGAM、CAM、DAG-GNN、GraN-DAG）を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。