Skip to main content
QUICK REVIEW

[论文解读] BSRBF-KAN: A combination of B-splines and Radial Basis Functions in Kolmogorov-Arnold Networks

Hoang-Thang Ta|arXiv (Cornell University)|Jun 17, 2024
Advanced Numerical Analysis Techniques被引用 7
一句话总结

BSRBF-KAN 在 Kolmogorov-Arnold 网络中将 B-splines 和高斯 RBF 融合,在 MNIST 和 Fashion-MNIST 上训练,达到与若干 KAN 与 MLP 相竞争的准确率并且收敛更快。

ABSTRACT

In this paper, we introduce BSRBF-KAN, a Kolmogorov Arnold Network (KAN) that combines B-splines and radial basis functions (RBFs) to fit input vectors during data training. We perform experiments with BSRBF-KAN, multi-layer perception (MLP), and other popular KANs, including EfficientKAN, FastKAN, FasterKAN, and GottliebKAN over the MNIST and Fashion-MNIST datasets. BSRBF-KAN shows stability in 5 training runs with a competitive average accuracy of 97.55% on MNIST and 89.33% on Fashion-MNIST and obtains convergence better than other networks. We expect BSRBF-KAN to open many combinations of mathematical functions to design KANs. Our repo is publicly available at: https://github.com/hoangthangta/BSRBF_KAN.

研究动机与目标

  • 通过将 B-splines 与 RBF 融合,设计一个更平滑、可控的基底函数,从而设计新的 KAN(BSRBF-KAN)。
  • 评估 BSRBF-KAN 相对于其他 KAN 和 MLP 在 MNIST 与 Fashion-MNIST 上的稳定性与收敛性。
  • 通过消融研究评估将 B-splines 与 RBF 结合的影响,以识别关键组成部分。
  • 为未来使用复合数学函数的 KAN 设计提供实证性指南。

提出的方法

  • 基于多变量函数分解的 Kolmogorov-Arnold 表示定理来构建 KAN。
  • 实现前向/反向架构,其中激活函数是基输出、B-样条和高斯 RBF 成分的加权混合。
  • 在可比网络结构(784-64-10,除了 GottliebKAN)上使用层归一化和常用训练设定(AdamW、CrossEntropy)。
  • 进行消融研究,去除 B-splines、RBF、基输出和层归一化,以评估对性能的影响。

实验结果

研究问题

  • RQ1在 MNIST 与 Fashion-MNIST 上,结合的 B-spline 与高斯 RBF 激活是否能达到或超过现有 KAN/MLP 的表现?
  • RQ2消融(移除 B-splines、RBF、基输出或层归一化)对 BSRBF-KAN 的训练稳定性和泛化有何影响?
  • RQ3与 EfficientKAN、FastKAN、FasterKAN、GottliebKAN 及 MLP 相比,BSRBF-KAN 是否在多次训练中提供更快的收敛和更稳定?
  • RQ4将 MNIST 与 Fashion-MNIST 的结果取平均时,BSRBF-KAN 相对于同行的总体表现如何?

主要发现

数据集模型训练准确率验证准确率F1耗时(s)参数量
MNISTBSRBF-KAN100.097.6397.6222459040
MNISTFastKAN99.9497.3897.34102459114
MNISTFasterKAN98.5297.3897.3693408224
MNISTEfficientKAN99.3497.5497.5122508160
MNISTGottliebKAN99.6697.7897.74269219927
MNISTMLP99.4297.6997.6627352512
Fashion-MNISTBSRBF-KAN99.389.5989.54219459040
Fashion-MNISTFastKAN98.2789.6289.60160459114
Fashion-MNISTFasterKAN94.489.3989.3157408224
Fashion-MNISTEfficientKAN94.8389.1189.04182508160
Fashion-MNISTGottliebKAN93.7987.6987.61241219927
Fashion-MNISTMLP93.5888.5188.4414752512
Average of MNIST + Fashion-MNISTBSRBF-KAN99.6593.6193.57220.5459040
Average of MNIST + Fashion-MNISTFastKAN99.1193.5093.47131459114
Average of MNIST + Fashion-MNISTFasterKAN96.4693.3993.33125408224
Average of MNIST + Fashion-MNISTEfficientKAN97.0993.3393.27152508160
Average of MNIST + Fashion-MNISTGottliebKAN96.7392.7492.68255219927
Average of MNIST + Fashion-MNISTMLP96.5093.1093.0521052512
  • BSRBF-KAN 在 MNIST 与 Fashion-MNIST 上实现了具有竞争力的准确率并显示出快速收敛。
  • 在 MNIST 上,BSRBF-KAN 在单次最佳运行中达到 100.0% 的训练准确率、97.63% 的验证准确率和 97.6% 的 F1。
  • 在平均的 MNIST+Fashion-MNIST 上,BSRBF-KAN 提供了最佳的整体平均验证(93.61%)和 F1(93.57%)。
  • 消融研究显示基输出和层归一化对性能至关重要;移除两者会使在 Fashion-MNIST 上的表现降至接近 MLP 的水平甚至更差。
  • GottliebKAN 在 MNIST 上可能得到更高的验证,但在 Fashion-MNIST 上不稳定;MLP 通常落后于 KAN 变体在 Fashion-MNIST 上,但可能训练最快。
  • BSRBF-KAN 配置单个 784-64-10 架构,训练时间具有竞争力(在报告的运行中平均约 220 秒)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。