[论文解读] Bayesian hyper-heuristic framework for training feedforward neural networks
本文提出了一种新颖的基于种群的贝叶斯超启发式方法(BHH),用于在前馈神经网络(FFNNs)中自动选择最优训练启发式算法。通过使用贝叶斯概率根据性能反馈动态更新启发式选择,BHH在14个数据集上取得了具有竞争力的结果,其中BHH-GD变体在各类问题类型中表现出最一致的性能和最低的方差。
The process of training feedforward neural networks (FFNNs) can benefit from an automated process where the best heuristic to train the network is sought out automatically by means of a high-level probabilistic-based heuristic. This research introduces a novel population-based Bayesian hyper-heuristic (BHH) that is used to train feedforward neural networks (FFNNs). The performance of the BHH is compared to that of ten popular low-level heuristics, each with different search behaviours. The chosen heuristic pool consists of classic gradient-based heuristics as well as meta-heuristics (MHs). The empirical process is executed on fourteen datasets consisting of classification and regression problems with varying characteristics. The BHH is shown to be able to train FFNNs well and provide an automated method for finding the best heuristic to train the FFNNs at various stages of the training process.
研究动机与目标
- 开发一种高层启发式方法,以在训练过程中自动选择最适合前馈神经网络(FFNNs)的低层训练启发式算法。
- 解决在前馈神经网络训练中启发式选择具有问题特异性且耗时的挑战。
- 利用贝叶斯统计将先验专家知识整合到启发式选择过程中。
- 在多样化分类与回归问题上,将BHH的性能与10种已确立的低层启发式算法进行对比评估。
- 展示BHH在具有不同特征的数据集之间具备良好的泛化能力。
提出的方法
- BHH使用一组启发式配置,每种配置代表一种不同的训练算法(例如,SGD、Adam、RMSProp)。
- 它应用贝叶斯推断,根据训练运行的性能反馈动态更新启发式选择的概率分布。
- 选择机制采用朴素贝叶斯分类器,对启发式选择、证据(性能指标)和结果(成功/失败)的联合概率进行建模。
- 该方法采用离散的信用分配机制,避免使用帕累托前沿和进化操作。
- 通过使用log-sum-exp技巧,确保在概率计算过程中的数值稳定性。
- BHH根据多次独立运行中观察到的性能,动态重新分配启发式概率。
实验结果
研究问题
- RQ1贝叶斯超启发式方法是否能在多样化数据集上,实现优于或等同于单个低层启发式算法在训练FFNNs中的性能?
- RQ2与静态启发式选择相比,BHH的动态启发式选择机制在一致性和泛化能力方面表现如何?
- RQ3在多大程度上可以将先验专家知识整合到BHH框架中,以提升选择性能?
- RQ4BHH是否通过自动化启发式选择减少了对手动超参数调优的需求?
- RQ5BHH在不同问题类型(分类与回归)及不同数据特征下的表现如何?
主要发现
- BHH-GD变体在全部14个数据集上实现了最佳整体性能,并表现出最低的排名方差,表明其具备强大的泛化能力。
- 基于梯度的启发式算法始终优于元启发式算法,而BHH-GD配置有效利用了这一趋势。
- BHH通过在包括分类和回归任务在内的多样化问题类型中保持高性能,展现出鲁棒性。
- BHH成功地将先验专家知识整合到选择过程中,使算法能够偏向于在特定问题类型中表现良好的启发式算法。
- BHH在不使用进化操作或帕累托前沿的情况下实现了具有竞争力的结果,这使其与以往的超启发式方法区分开来。
- 通过使用log-sum-exp技巧,该方法在概率计算中表现出数值稳定性,有效防止了下溢问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。