[论文解读] <<The>> quest for the golden activation function
该论文提出了一种基于遗传算法的神经进化框架,用于自动学习特定任务的激活函数,引入了两种新函数——ELiSH 和 HardELiSH,在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 基准测试中展现出性能提升,且不同数据集和网络架构下涌现出不同的最优激活函数。
Deep Neural Networks have been shown to be beneficial for a variety of tasks, in particular allowing for end-to-end learning and reducing the requirement for manual design decisions. However, still many parameters have to be chosen in advance, also raising the need to optimize them. One important, but often ignored system parameter is the selection of a proper activation function. Thus, in this paper we target to demonstrate the importance of activation functions in general and show that for different tasks different activation functions might be meaningful. To avoid the manual design or selection of activation functions, we build on the idea of genetic algorithms to learn the best activation function for a given task. In addition, we introduce two new activation functions, ELiSH and HardELiSH, which can easily be incorporated in our framework. In this way, we demonstrate for three different image classification benchmarks that different activation functions are learned, also showing improved results compared to typically used baselines.
研究动机与目标
- 解决深度神经网络中激活函数选择缺乏理论基础和依赖人工调优的问题。
- 证明不同图像分类任务需要不同的最优激活函数。
- 开发一种自动、高效且可扩展的方法,以演化出针对特定任务定制的激活函数。
- 基于理论洞察和实证性能,提出两种新型激活函数——ELiSH 和 HardELiSH。
- 在多样化基准上评估该框架,以验证其泛化能力和性能提升。
提出的方法
- 采用遗传算法框架,逐层演化分段激活函数,从简单的初始函数开始。
- 使用基于语法的表示方法将激活函数表示为符号表达式,以支持进化操作(如变异和交叉)。
- 基于验证准确率设计适应度函数,引导进化搜索向性能更优的激活函数发展。
- 将新提出的 ELiSH 和 HardELiSH 函数作为候选解集成到进化框架中。
- 固定网络架构,仅优化激活函数,实现在不改变网络结构的前提下实现任务特定的适应。
- 将该方法应用于 ResNet-56 和 VGG-16 架构,在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 数据集上进行实验。
实验结果
研究问题
- RQ1遗传算法能否有效演化出在图像分类任务中优于标准基线的激活函数?
- RQ2即使使用相同的网络架构,不同数据集是否需要根本上不同的激活函数?
- RQ3新提出的 ELiSH 和 HardELiSH 函数在准确率和稳定性方面与现有激活函数相比如何?
- RQ4在不同数据集复杂度下,高性能激活函数的结构和功能特征是什么?
- RQ5所演化的激活函数是否能在不同网络深度和架构间实现泛化?
主要发现
- 在 CIFAR-10 上,表现最佳的激活函数是 ELiSH,测试准确率达到 93.84%,优于 ReLU(92.85%)和 Swish(93.42%)。
- 在 CIFAR-100 上,表现最佳的函数是负输入部分采用 HardELiSH、正输入部分采用 max(SeLU, SeLU + Linear) 的混合函数,使用 ResNet-56 时准确率达到 74.65%。
- 在 Tiny ImageNet 上,ELiSH 在 ResNet-56 上达到 57.34% 的准确率,优于 ReLU(57.27%)和 SeLU(50.09%),而 HardELiSH + min(ELU, Swish) 达到 57.53%。
- 所演化的激活函数表现出明显差异:CIFAR-10 最优为压缩映射,而 CIFAR-100 和 Tiny ImageNet 更偏好扩展映射。
- 表现最佳的函数通常结合了多种操作(如 max、min、复合),表明其具有复杂且非线性的行为,可针对数据分布进行定制。
- 结果证实,激活函数的选择并非通用;不同任务和数据集需要不同的函数形式,且可通过进化算法自动发现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。