[论文解读] BSRBF-KAN: A combination of B-splines and Radial Basis Functions in Kolmogorov-Arnold Networks
BSRBF-KAN 在 Kolmogorov-Arnold 网络中将 B-splines 和高斯 RBF 融合,在 MNIST 和 Fashion-MNIST 上训练,达到与若干 KAN 与 MLP 相竞争的准确率并且收敛更快。
In this paper, we introduce BSRBF-KAN, a Kolmogorov Arnold Network (KAN) that combines B-splines and radial basis functions (RBFs) to fit input vectors during data training. We perform experiments with BSRBF-KAN, multi-layer perception (MLP), and other popular KANs, including EfficientKAN, FastKAN, FasterKAN, and GottliebKAN over the MNIST and Fashion-MNIST datasets. BSRBF-KAN shows stability in 5 training runs with a competitive average accuracy of 97.55% on MNIST and 89.33% on Fashion-MNIST and obtains convergence better than other networks. We expect BSRBF-KAN to open many combinations of mathematical functions to design KANs. Our repo is publicly available at: https://github.com/hoangthangta/BSRBF_KAN.
研究动机与目标
- 通过将 B-splines 与 RBF 融合,设计一个更平滑、可控的基底函数,从而设计新的 KAN(BSRBF-KAN)。
- 评估 BSRBF-KAN 相对于其他 KAN 和 MLP 在 MNIST 与 Fashion-MNIST 上的稳定性与收敛性。
- 通过消融研究评估将 B-splines 与 RBF 结合的影响,以识别关键组成部分。
- 为未来使用复合数学函数的 KAN 设计提供实证性指南。
提出的方法
- 基于多变量函数分解的 Kolmogorov-Arnold 表示定理来构建 KAN。
- 实现前向/反向架构,其中激活函数是基输出、B-样条和高斯 RBF 成分的加权混合。
- 在可比网络结构(784-64-10,除了 GottliebKAN)上使用层归一化和常用训练设定(AdamW、CrossEntropy)。
- 进行消融研究,去除 B-splines、RBF、基输出和层归一化,以评估对性能的影响。
实验结果
研究问题
- RQ1在 MNIST 与 Fashion-MNIST 上,结合的 B-spline 与高斯 RBF 激活是否能达到或超过现有 KAN/MLP 的表现?
- RQ2消融(移除 B-splines、RBF、基输出或层归一化)对 BSRBF-KAN 的训练稳定性和泛化有何影响?
- RQ3与 EfficientKAN、FastKAN、FasterKAN、GottliebKAN 及 MLP 相比,BSRBF-KAN 是否在多次训练中提供更快的收敛和更稳定?
- RQ4将 MNIST 与 Fashion-MNIST 的结果取平均时,BSRBF-KAN 相对于同行的总体表现如何?
主要发现
| 数据集 | 模型 | 训练准确率 | 验证准确率 | F1 | 耗时(s) | 参数量 |
|---|---|---|---|---|---|---|
| MNIST | BSRBF-KAN | 100.0 | 97.63 | 97.6 | 222 | 459040 |
| MNIST | FastKAN | 99.94 | 97.38 | 97.34 | 102 | 459114 |
| MNIST | FasterKAN | 98.52 | 97.38 | 97.36 | 93 | 408224 |
| MNIST | EfficientKAN | 99.34 | 97.54 | 97.5 | 122 | 508160 |
| MNIST | GottliebKAN | 99.66 | 97.78 | 97.74 | 269 | 219927 |
| MNIST | MLP | 99.42 | 97.69 | 97.66 | 273 | 52512 |
| Fashion-MNIST | BSRBF-KAN | 99.3 | 89.59 | 89.54 | 219 | 459040 |
| Fashion-MNIST | FastKAN | 98.27 | 89.62 | 89.60 | 160 | 459114 |
| Fashion-MNIST | FasterKAN | 94.4 | 89.39 | 89.3 | 157 | 408224 |
| Fashion-MNIST | EfficientKAN | 94.83 | 89.11 | 89.04 | 182 | 508160 |
| Fashion-MNIST | GottliebKAN | 93.79 | 87.69 | 87.61 | 241 | 219927 |
| Fashion-MNIST | MLP | 93.58 | 88.51 | 88.44 | 147 | 52512 |
| Average of MNIST + Fashion-MNIST | BSRBF-KAN | 99.65 | 93.61 | 93.57 | 220.5 | 459040 |
| Average of MNIST + Fashion-MNIST | FastKAN | 99.11 | 93.50 | 93.47 | 131 | 459114 |
| Average of MNIST + Fashion-MNIST | FasterKAN | 96.46 | 93.39 | 93.33 | 125 | 408224 |
| Average of MNIST + Fashion-MNIST | EfficientKAN | 97.09 | 93.33 | 93.27 | 152 | 508160 |
| Average of MNIST + Fashion-MNIST | GottliebKAN | 96.73 | 92.74 | 92.68 | 255 | 219927 |
| Average of MNIST + Fashion-MNIST | MLP | 96.50 | 93.10 | 93.05 | 210 | 52512 |
- BSRBF-KAN 在 MNIST 与 Fashion-MNIST 上实现了具有竞争力的准确率并显示出快速收敛。
- 在 MNIST 上,BSRBF-KAN 在单次最佳运行中达到 100.0% 的训练准确率、97.63% 的验证准确率和 97.6% 的 F1。
- 在平均的 MNIST+Fashion-MNIST 上,BSRBF-KAN 提供了最佳的整体平均验证(93.61%)和 F1(93.57%)。
- 消融研究显示基输出和层归一化对性能至关重要;移除两者会使在 Fashion-MNIST 上的表现降至接近 MLP 的水平甚至更差。
- GottliebKAN 在 MNIST 上可能得到更高的验证,但在 Fashion-MNIST 上不稳定;MLP 通常落后于 KAN 变体在 Fashion-MNIST 上,但可能训练最快。
- BSRBF-KAN 配置单个 784-64-10 架构,训练时间具有竞争力(在报告的运行中平均约 220 秒)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。