[論文レビュー] Beyond Homophily: Reconstructing Structure for Graph-agnostic Clustering
この論文は DGCN を紹介します。グラフの同質性に依存しないクラスタリングで、同質的なグラフと異質的なグラフを再構成し、混合グラフフィルターを適用し、デュアルエンコーダを用いて属性情報とトポロジ情報を分離して教師なしクラスタリングを行います。
Graph neural networks (GNNs) based methods have achieved impressive performance on node clustering task. However, they are designed on the homophilic assumption of graph and clustering on heterophilic graph is overlooked. Due to the lack of labels, it is impossible to first identify a graph as homophilic or heterophilic before a suitable GNN model can be found. Hence, clustering on real-world graph with various levels of homophily poses a new challenge to the graph research community. To fill this gap, we propose a novel graph clustering method, which contains three key components: graph reconstruction, a mixed filter, and dual graph clustering network. To be graph-agnostic, we empirically construct two graphs which are high homophily and heterophily from each data. The mixed filter based on the new graphs extracts both low-frequency and high-frequency information. To reduce the adverse coupling between node attribute and topological structure, we separately map them into two subspaces in dual graph clustering network. Extensive experiments on 11 benchmark graphs demonstrate our promising performance. In particular, our method dominates others on heterophilic graphs.
研究の動機と目的
- ラベル付きデータを使用せず、さまざまなレベルの同質性を持つグラフ上のノードクラスタリング課題に対処する。
- 事前にグラフを同質性または異質性で識別する必要がない包括的なフレームワークを提案する。
- 任意のグラフから2つのグラフ(同質的グラフと異質的グラフ)を再構成して異なる周波数情報を捉える。
- 再構成されたグラフから低周波情報と高周波情報の両方を抽出する混合グラフフィルタを開発する。
- ノード属性とトポロジ情報の結合を回避するため、それらをクラスタリング用の2つのサブ空間に分離する。
提案手法
- 元のグラフ A から同質的グラフ S と異質的グラフ H の2つの教師なしグラフを構築する。
- 混合グラフフィルタ F を設計し、同質的グラフの低パス情報と異質的グラフの高パス情報をブレンドする:F = μ(1/2 L_H)^k X + (1−μ)(I − 1/2 L_S)^k X。
- 二つの未共有エンコーダを持つ Dual Graph Clustering Network (DGCN) を用いて F と A をそれぞれ属性サブスペースと構造サブスペースへ写像する。
- 再構成を導くために Scaled Cosine Error (SCE) 損失を用い、二つのエンコーダ間の表現崖崩れを防ぐ相関低減項を併用する。
- KL ダイバージェンスに基づくクラスタリング目的関数でクラスタ割り当てを訓練し、ソフト割り当て Q をターゲット分布 P(KL(P||Q))と整合させる。
実験結果
リサーチクエスチョン
- RQ1ラベル付けやグラフタイプ分類を事前に行わずとも、任意レベルの同質性を持つグラフ上でノードクラスタリングは効果的に実行できるか。
- RQ2同質/異質構造の unsupervised 再構成と混合フィルタ・デュアルエンコーダを組み合わせると、さまざまなグラフでクラスタリングは改善されるか。
- RQ3属性情報とトポロジ情報を別々のサブスペースに分離することは、異質的グラフのクラスタリング品質にどのように影響するか。
- RQ4混合フィルタのバランスパラメータ μ とフィルタ次数 k がデータセット全体のクラスタリング性能に与える影響はどうなるか。
- RQ5提案手法 DGCN は同質・異質グラフの両方のベンチマークで堅牢性と競争力を持つか。
主な発見
- DGCN は 11 のベンチマークデータセットを通じて、同質グラフと異質グラフの両方で強力なクラスタリング性能を示した。
- 異質的グラフ上で DGCN は多くのベースラインを凌駕し、Texas、Wisconsin、Washington で二番手手法との差が顕著に改善された。
- 同質グラフ上では DGCN は競争力のある結果を示し、比較手法の中でしばしば最高ランクを獲得することがある。
- 混合フィルタと再構成グラフを用いることで、低周波情報と高周波情報の両方を捕捉し、グラフ種別を問わずクラスタリングを改善する。
- 属性と構造を別々のサブスペースに写像することは、悪影響となる結合を抑制し、異質的グラフのクラスタリングに有益である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。