QUICK REVIEW

[論文レビュー] Efficient Graph Similarity Computation with Alignment Regularization

Wei Zhuo, Guang Tan|arXiv (Cornell University)|Jun 21, 2024

Advanced Graph Neural Networks被引用数 5

ひとこと要約

ERICはGED推定のためのグラフ整列を学習するGNNエンコーダを訓練するAlignment Regularization（AReg）を導入し、テスト時のクロスグラフマッチングを排除することで推論を高速化し、精度向上のためのマルチスケールGED識別器を組み合わせる。

ABSTRACT

We consider the graph similarity computation (GSC) task based on graph edit distance (GED) estimation. State-of-the-art methods treat GSC as a learning-based prediction task using Graph Neural Networks (GNNs). To capture fine-grained interactions between pair-wise graphs, these methods mostly contain a node-level matching module in the end-to-end learning pipeline, which causes high computational costs in both the training and inference stages. We show that the expensive node-to-node matching module is not necessary for GSC, and high-quality learning can be attained with a simple yet powerful regularization technique, which we call the Alignment Regularization (AReg). In the training stage, the AReg term imposes a node-graph correspondence constraint on the GNN encoder. In the inference stage, the graph-level representations learned by the GNN encoder are directly used to compute the similarity score without using AReg again to speed up inference. We further propose a multi-scale GED discriminator to enhance the expressive ability of the learned representations. Extensive experiments on real-world datasets demonstrate the effectiveness, efficiency and transferability of our approach.

研究の動機と目的

GED推定による効率的なグラフ類似性計算（GSC）を動機づけ、エンドツーエンドGNNベースのGSCモデルにおけるノード間マッチングの高コストに対処する。
Inference時にクロスグラフマッチングを必要とせず、訓練時にはノード-グラフ整列を強制するAlignment Regularization（AReg）を提案する。
GED予測の表現力を高めるためのマルチスケールGED識別器を導入する。
学習したグラフレベルの表現がマッチングモジュールなしで高速推論を可能にすることを示す。
実世界データセットにおける最新性能、効率、移転性の実証的エビデンスを示す。

提案手法

GEDを最適整列問題として定式化し、最適な置換下での必要条件を導出して表現学習を指導する。
ARegをGINベースのエンコーダと置換不変のリードアウト（DeepSets）を用いた正則化項として定義し、整列志向の埋め込みを促進する。
ペア内の両方のグラフに対して共有のGNNエンコーダを用い、マルチスケールでARegを適用してノードレベルおよびグラフレベルの整列信号を捉える。
クロスグラフ相互作用をモデル化するNTN（重みを分解したニューラルテンソルネットワーク）と、追加の指数的ミンコフスキー距離識別器を組み合わせたマルチスケールGED識別器を用意し、最終スコアは両者の重み付き組み合わせで得られる。
GED予測子を真のGED由来の類似性に対する回帰損失とAReg損失で補強して訓練する。推論時にはAReg成分を除去し、学習済みのグラフ表現から直接類似性を計算する。
訓練時間にはGINと識別器のコストが含まれる一方、推論はテスト時にクロスグラフ相互作用を計算しないため高速であることを示す複雑さ分析を提供する。

Figure 1 : Illustration of separating the matching model from the end-to-end GSC framework to achieve a fast model (right side). In the fast model, the dotted arrow means the matching model does not participate in the similarity computation in the inference stage.

実験結果

リサーチクエスチョン

RQ1Alignment Regularizationは推論時に高価なクロスグラフノードマッチングを必要とせず、GEDベースのグラフ類似性推定を正確に行えるか。
RQ2マルチスケールGED識別器とARegを組み合わせることで、単一識別器や正則化なしのベースラインより識別性と予測精度が向上するか。
RQ3ERICは他のGSCモデルにARegの恩恵をどれだけ移転させられるか。
RQ4最先端のベースラインと比較した場合、推論時のERICの計算効率はどれだけ向上するか。
RQ5ERICは距離/識別子タイプとミンコフスキーのパラメータpの選択に対してどの程度敏感か。

主な発見

データセット	MSE_AIDS700	Rho_AIDS700	Tau_AIDS700	p@10_AIDS700	p@20_AIDS700	MSE_LINUX	Rho_LINUX	Tau_LINUX	p@10_LINUX	p@20_LINUX	MSE_IMDB	Rho_IMDB	Tau_IMDB	p@10_IMDB	p@20_IMDB	MSE_NCI109	Rho_NCI109	Tau_NCI109	p@10_NCI109	p@20_NCI109
ERIC	1.383	0.906	0.740	0.679	0.746	0.113	0.988	0.908	0.994	0.996	0.385	0.890	0.791	0.882	0.891	0.113	0.988	0.994	0.996

ERICは複数のGSCベンチマーク（AIDS700、LINUX、IMDB、NCI109）でMSE、順位相関（rho、tau）、上位k精度の点で最先端の性能を達成。
ARegは性能を改善; それを除去するとデータセット全体でMSE、rho、tau、およびp@k指標が劣化。
NTNベースおよびell-2距離識別器の双方が性能に寄与し、いずれかを除くと有効性が低下、NTNの方がより大きな改善を提供。
推論時間はクロスグラフマッチングをテスト時に使用しないため全ベースラインより著しく高速であり、精度を維持または向上。
ARegはSimGNNやEGSCと統合された際に損失関数を介して移植性を示し、モデル非依存の有用性を示唆。
可視化とアブレーション研究により、ERICのエンコーダはGEDと相関するノード-グラフ整列の手掛かりを学習しており、整列ベース正則化の妥当性を支持。

Figure 2 : The optimal edit path with 3 edit operations to transform $G_{i}$ to $G_{j}$ . As a result, $\mathrm{GED}(G_{i},G_{j})=3$ .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。