[論文レビュー] GKAN: Graph Kolmogorov-Arnold Networks
GKANはKolmogorov-Arnold Networkをグラフ構造データへ拡張し、学習可能な一変量エッジ関数を用い、Coraで半教師ありノード分類において同程度のパラメータ数のGCNより2つのアーキテクチャが優れていると提案する。
We introduce Graph Kolmogorov-Arnold Networks (GKAN), an innovative neural network architecture that extends the principles of the recently proposed Kolmogorov-Arnold Networks (KAN) to graph-structured data. By adopting the unique characteristics of KANs, notably the use of learnable univariate functions instead of fixed linear weights, we develop a powerful model for graph-based learning tasks. Unlike traditional Graph Convolutional Networks (GCNs) that rely on a fixed convolutional architecture, GKANs implement learnable spline-based functions between layers, transforming the way information is processed across the graph structure. We present two different ways to incorporate KAN layers into GKAN: architecture 1 -- where the learnable functions are applied to input features after aggregation and architecture 2 -- where the learnable functions are applied to input features before aggregation. We evaluate GKAN empirically using a semi-supervised graph learning task on a real-world dataset (Cora). We find that architecture generally performs better. We find that GKANs achieve higher accuracy in semi-supervised learning tasks on graphs compared to the traditional GCN model. For example, when considering 100 features, GCN provides an accuracy of 53.5 while a GKAN with a comparable number of parameters gives an accuracy of 61.76; with 200 features, GCN provides an accuracy of 61.24 while a GKAN with a comparable number of parameters gives an accuracy of 67.66. We also present results on the impact of various parameters such as the number of hidden nodes, grid-size, and the polynomial-degree of the spline on the performance of GKAN.
研究の動機と目的
- Kolmogorov-Arnold表現を利用して、従来のGCNを超えるグラフ構造データ学習を動機づける。
- グラフ層内のエッジに学習可能な一変量関数を適用する2つのGKANアーキテクチャを導入する。
- 実データセット上でGKANを評価し、公正なパラメータ数の下で標準的なGCNと比較する。
- スプラインベースの関数次数、グリッドサイズ、および隠れユニット数が性能に与える影響を探る。
提案手法
- Kolmogorov-Arnold表現を活用し、エッジ重みを学習可能な一変量関数(B-splines)に置換する。
- 2つのアーキテクチャを導入する:アーキテクチャ1は統合入力にKANLayerを適用する;アーキテクチャ2は統合前にKANLayerを適用する。
- GCNと同様にグラフ隣接正規化を用いて層間に特徴を伝播させる。
- 学習可能なパラメータはスカラー重みではなく一変量関数(スプライン)であり、潜在的にパラメータ効率の良いモデリングを可能にする。
- Coraにおいてパラメータ数を合わせたGCNとGKANのバリアントを半教師ありノード分類で比較する。
実験結果
リサーチクエスチョン
- RQ1Graph Kolmogorov-Arnold Networks (GKAN) は、グラフデータにおいて従来のGCNと同様のパラメータ予算で、半教師ありノード分類の精度を向上させることができるか?
- RQ2アーキテクチャの選択(事前集約KANレイヤリング vs 事後集約KANレイヤリング)がグラフ上の性能にどう影響するか?
- RQ3スプラインベースのハイパーパラメータ(次数、グリッドサイズ)と隠れ層サイズがGKANの性能に与える効果は何か?
主な発見
| Architecture | #Parameters | Test |
|---|---|---|
| GCN_{h_{GCN}=205} | 22,147 | 53.50 |
| GKAN_{(k=1,g=10,h=16)}^{(Archit. 1)} | 22,279 | 59.32 |
| GKAN_{(k=1,g=10,h=16)}^{(Archit. 2)} | 22,279 | 61.48 |
| GKAN_{(k=2,g=9,h=16)}^{(Archit. 1)} | 22,279 | 56.76 |
| GKAN_{(k=2,g=9,h=16)}^{(Archit. 2)} | 22,279 | 61.76 |
| GCN_{h_{GCN}=104} | 21,639 | 61.24 |
| GKAN_{(k=2,g=2,h=17)}^{(Archit. 1)} | 21,138 | 63.58 |
| GKAN_{(k=2,g=2,h=17)}^{(Archit. 2)} | 21,138 | 64.10 |
| GKAN_{(k=1,g=2,h=20)}^{(Archit. 1)} | 20,727 | 67.44 |
| GKAN_{(k=1,g=2,h=20)}^{(Archit. 2)} | 20,727 | 67.66 |
- Coraでは、複数の設定でパラメータ一致のGCNをGKANのバリアントがテスト精度で上回る。
- 特徴量が100のとき、最良のGKANは61.76%のテスト精度を達成(Architecture 2)、同等のパラメータ数のGCNは53.50% 。
- 特徴量が200のとき、最良のGKANは67.66%のテスト精度(Architecture 2)で、同等パラメータのGCNは61.24% 。
- 報告された実験では、Architecture 2が一般にArchitecture 1より高い精度を示す。
- スプライングリッドサイズを増やすと、ある程度まで性能が向上する(試験値の中でg=7が最良)、ただしグリッドが大きすぎると(g=11)性能が低下する場合がある。
- 報告された範囲では、スプライン次数が低いほど(k=1)しばしばより良い結果を示し、階段状線形挙動が有利であることを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。