QUICK REVIEW

[論文レビュー] Score-based Generative Modeling of Graphs via the System of Stochastic Differential Equations

Jaehyeong Jo, Seul Lee|arXiv (Cornell University)|Feb 5, 2022

Complex Network Analysis Techniques被引用数 25

ひとこと要約

連続時間スコアベースのグラフ生成モデルGDSSを導入。ノード特徴量と隣接行列をSDEsの系として共同でモデリングし、部分スコア目的で学習してノードとエッジの依存関係を捉える。

ABSTRACT

Generating graph-structured data requires learning the underlying distribution of graphs. Yet, this is a challenging problem, and the previous graph generative methods either fail to capture the permutation-invariance property of graphs or cannot sufficiently model the complex dependency between nodes and edges, which is crucial for generating real-world graphs such as molecules. To overcome such limitations, we propose a novel score-based generative model for graphs with a continuous-time framework. Specifically, we propose a new graph diffusion process that models the joint distribution of the nodes and edges through a system of stochastic differential equations (SDEs). Then, we derive novel score matching objectives tailored for the proposed diffusion process to estimate the gradient of the joint log-density with respect to each component, and introduce a new solver for the system of SDEs to efficiently sample from the reverse diffusion process. We validate our graph generation method on diverse datasets, on which it either achieves significantly superior or competitive performance to the baselines. Further analysis shows that our method is able to generate molecules that lie close to the training distribution yet do not violate the chemical valency rule, demonstrating the effectiveness of the system of SDEs in modeling the node-edge relationships. Our code is available at https://github.com/harryjo97/GDSS.

研究の動機と目的

並べ替え不変性を尊重しつつ、グラフ構造データの分布を学習する動機づけ。
ノード特徴量と隣接行列をSDEsの系を通じて共同で拡散させる拡散フレームワークを提案する（GDSS）。
X（ノード特徴量）とA（隣接）に対する結合スコアモデルを訓練するための新しい部分スコアマッチング目的を開発する。
学習済み拡散過程からグラフをサンプリングするための効率的な逆時間SDEソルバー（S4）を導入する。
合成グラフ、実世界グラフ、および分子データセットに対して優れたまたは競争力のある生成品質を示す。

提案手法

G = (X, A) を定義する。X ∈ R^{N×F}、A ∈ R^{N×N}。
グラフ成分をノイズ化するために、ドリフト f_t および拡散 g_t を持つGの前向きItô SDEを形成する。
部分スコア関数 ∇_{X_t} log p_t および ∇_{A_t} log p_t を用いて X_t および A_t の結合逆時間SDE系を導出する。
時間依存のスコアネットワーク s_{θ,t} および s_{φ,t} を提案し、部分スコアを推定する（XとA）そして部分スコアに適合させたノイズ除去スコアマッチング目的（式(5)–(7)に適合）で訓練する。
アーキテクチャ: グラフニューラルネットワーク(GNN)を用いた置換対称なスコアモデルと、ノード-エッジの依存関係を捉えるグラフマルチヘッドアテンション（式(8)–(9)）。
逆系を新規のSymmetric Splitting for System of SDEs（S4）積分器で解く。スコア計算、補正ステップ、および予測ステップを統合し、演算子分割とFokker-Planck形式に基づく。

実験結果

リサーチクエスチョン

RQ1SDEsの系としてモデル化された拡散過程が、ノード特徴量と隣接を共同で拡散・回復し、置換不変性を保持できるか？
RQ2部分スコア目的は、限界スコアアプローチと比較してグラフの結合データ分布の効果的な学習を可能にするか？
RQ3逆拡散のスケーラブルで正確なサンプラは、合成グラフおよび分子グラフに対して、ベースラインGD法および既存のワンショットモデルを上回るか？
RQ4XとAを共同でモデル化することは、逐次または独立拡散バリアントよりノード-エッジの依存関係をより適切に捉えるか？
RQ5提案されたGDSSフレームワークは、自己回帰モデルおよび他のワンショットモデルと比較して、一般的なグラフ生成タスクおよび分子生成でどのように性能を示すか？

主な発見

GDSSとその連続時間拡散フレームワークは、既存のワンショットグラフ生成モデルを上回り、一般的なグラフデータセットでは自己回帰モデルと競合する。
GDSSを介したノード特徴量と隣接の結合拡散は、GDSS-seqやEDP-GNNの変種よりもノード-エッジ依存関係をより適切に捉える。おもちゃデータと実データ分析から示される。
GDSSは、Ego-small、Community-small、Enzymes、Gridデータセットで、ベースラインと比較して改善されたまたは競争力のあるMMDベースの指標を達成。
分子生成タスクで、GDSSは自己回帰法を含む最先端ベースラインを上回り、複雑なノード-エッジ依存性の効果的なモデリングを示す。
S4ソルバーは、スコア計算、補正、予測ステップのバランスを取り、SDEs系の効率的かつ正確なサンプリングを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。