[論文レビュー] Learning Deep Generative Models of Graphs
この論文は、連続的なグラフ構築プロセスをシミュレートすることで任意のグラフの分布を学習するグラフネットベースの生成モデルを紹介し、合成グラフおよび分子グラフでの強力な性能を示し、条件付き生成を含む。
Graphs are fundamental data structures which concisely capture the relational structure in many important real-world domains, such as knowledge graphs, physical and social interactions, language, and chemistry. Here we introduce a powerful new approach for learning generative models over graphs, which can capture both their structure and attributes. Our approach uses graph neural networks to express probabilistic dependencies among a graph's nodes and edges, and can, in principle, learn distributions over any arbitrary graph. In a series of experiments our results show that once trained, our models can generate good quality samples of both synthetic graphs as well as real molecular graphs, both unconditionally and conditioned on data. Compared to baselines that do not use graph-structured representations, our models often perform far better. We also explore key challenges of learning generative models of graphs, such as how to handle symmetries and ordering of elements during the graph generation process, and offer possible solutions. Our work is the first and most general approach for learning generative models over arbitrary graphs, and opens new directions for moving away from restrictions of vector- and sequence-like knowledge representations, toward more expressive and flexible relational data structures.
研究の動機と目的
- 従来のランダムグラフや文法ベースのアプローチを超える、グラフ上で表現力豊かな生成モデルの必要性を動機づける。
- グラフニューラルネットワーク駆動の生成過程を提案し、新しいノードを追加し、それから既存グラフに新ノードを接続するエッジを追加する逐次的なプロセス。
- グラフ構造の生成は合成グラフタスクと分子グラフ生成においてLSTMベースラインを上回ることを示す。
- グラフ生成における条件付けと順序付けの問題を探り、分子グラフに対する条件付き生成能力を示す。
提案手法
- 各ステップで新しいノードを追加し、その後に新ノードを既存グラフと接続するためのエッジを追加する可能性を決定する。
- ノード追加・エッジ追加・接続ターゲット選択の確率を計算する決定モジュールをグラフネットでパラメータ化する。
- 伝播ベースのグラフ表現(マルチラウンドのメッセージパッシング)を用いてノード/グラフ埋め込みを計算し、決定モジュールに供給する。
- 近似を用いて周辺尤度をマージナル尤度の近似(重要サンプリング)で最大化し、グラフとその生成順序の結合尤度 p(G, π) を訓練する。
- 初期化や出力モジュールに条件ベクトルを注入してグラフ構築を導くことにより、条件付き生成を許可する。
実験結果
リサーチクエスチョン
- RQ1グラフニューラルネットワークベースの生成モデルは、サイクルや複雑なトポロジを含む任意のグラフの分布を学習できるか?
- RQ2提案モデルは基準と比較して、合成グラフ生成タスク(サイクル、ツリー、Barabási–Albert グラフ)でどう性能を発揮するか?
- RQ3モデルは有効で新規な分子グラフを生成できるか、SMILES/LSTMおよび文法ベースのアプローチとどのように比較されるか?
- RQ4ノード/エッジの順序付けが学習と生成に与える影響は何か、条件づけは条件付きグラフ生成を改善できるか(例: 分子特性)?
主な発見
| データセット | グラフモデル | LSTM | E–R モデル |
|---|---|---|---|
| サイクル | 84.4% | 48.5% | 0.0% |
| 木構造 | 96.6% | 30.2% | 0.3% |
| B–A グラフ | 0.0013 | 0.0537 | 0.3715 |
- グラフ生成モデルはサイクル、木構造、Barabási–Albert グラフのいずれにおいてもLSTMベースラインより漸近的な対数尤度性能が高い。
- グラフモデルはサイクルと木構造で有効なサンプルの割合が高く、Barabási–Albert グラフでは次数分布の整合性がベースラインより優れている。
- ChEMBLデータ上の分子生成では、グラフベース生成を用いたモデルが、SMILESで訓練されたLSTMやグラフ生成系列より有効なサンプル数と新規サンプル数が高く、小分子では周辺尤度も競争力を持つ。
- 条件付きグラフ生成は、特に補完・外挿ケースで、条件設定の各シナリオでより有効で新規サンプルを生成することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。