[论文解读] Raiders of the Lost Architecture: Kernels for Bayesian Optimization in Conditional Parameter Spaces
本文提出了弧核(arc kernel),一种新颖的高斯过程核,通过基于共享且相关的超参数对架构之间的依赖关系进行建模,使贝叶斯优化能够高效地在条件参数空间(如深度可变的神经网络架构)中进行搜索。弧核提升了模型的准确性和优化效率,在MNIST和CIFAR-10上的回归与贝叶斯优化任务中,均优于标准核函数和独立模型。
In practical Bayesian optimization, we must often search over structures with differing numbers of parameters. For instance, we may wish to search over neural network architectures with an unknown number of layers. To relate performance data gathered for different architectures, we define a new kernel for conditional parameter spaces that explicitly includes information about which parameters are relevant in a given structure. We show that this kernel improves model quality and Bayesian optimization results over several simpler baseline kernels.
研究动机与目标
- 解决在某些超参数根据架构结构条件性相关时(如深度可变的神经网络)的优化挑战。
- 开发一种核函数,使高斯过程能够对具有不同活跃参数数量的架构之间的函数协方差进行建模。
- 通过允许一个架构的性能数据在参数重叠时为其他架构的搜索提供信息,提升贝叶斯优化的效率。
- 消除为每个架构单独建模的需求,降低计算成本并提升数据效率。
提出的方法
- 弧核被定义为在相关参数上的线性核与一个δ函数的乘积,后者在比较具有不同相关性模式的点时强制保持一致性。
- 它确保核值仅依赖于共享的相关参数,从而使无关参数对协方差无影响。
- 该核被整合进高斯过程框架中,核超参数通过切片采样推断。
- 通过在输入表示中显式编码相关性信息,该方法支持对多个架构进行联合建模。
- 通过将共享超参数作为相似性的基础,实现在不同架构之间传递信息。
- 该方法在MNIST和CIFAR-10上的前馈神经网络中,于高斯过程回归和贝叶斯优化设置下进行了评估。
实验结果
研究问题
- RQ1能否设计一种核函数,以对基于架构结构条件性相关的输入维度的参数空间中的函数协方差进行建模?
- RQ2在条件参数空间中,弧核相较于标准核函数和独立模型,在预测准确性方面表现如何?
- RQ3弧核是否能提升神经架构搜索中贝叶斯优化的效率与收敛速度?
- RQ4当两个架构仅共享部分超参数时,能在多大程度上实现有意义的信息共享?
主要发现
- 在原始输出的MNIST贝叶斯优化数据集上,弧核的归一化均方误差为0.421 ± 0.033,显著优于基线高斯过程(0.481 ± 0.031)。
- 在对数变换输出下,弧核的归一化均方误差为0.335 ± 0.028,优于基线高斯过程(0.401 ± 0.028)和独立模型。
- 在MNIST上,使用弧核找到的最佳模型在50,000个训练样本下达到1.19%的测试误差,优于先前使用更多数据得到的1.28%结果。
- 在CIFAR-10上,弧核模型在45,000个样本下达到21.1%的测试误差,优于使用1,600个特征和50,000个样本的基线SVM(22.1%误差)。
- 弧核模型比基线更有效地探索了更深的架构,后者更倾向于选择较小的模型,表明其在更有希望区域的探索能力更强。
- 弧核减少了对每个架构单独建模的需求,提升了数据效率,并在贝叶斯优化中实现了更快的收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。