[论文解读] Neural Networks Fail to Learn Periodic Functions and How to Fix It
论文展示标准激活函数无法外推周期函数,并引入 Snake 激活函数(x + sin^2(x))以偏向周期性,给出普遍外推定理和真实世界测试。
Previous literature offers limited clues on how to learn a periodic function using modern neural networks. We start with a study of the extrapolation properties of neural networks; we prove and demonstrate experimentally that the standard activations functions, such as ReLU, tanh, sigmoid, along with their variants, all fail to learn to extrapolate simple periodic functions. We hypothesize that this is due to their lack of a "periodic" inductive bias. As a fix of this problem, we propose a new activation, namely, $x + \sin^2(x)$, which achieves the desired periodic inductive bias to learn a periodic function while maintaining a favorable optimization property of the ReLU-based activations. Experimentally, we apply the proposed method to temperature and financial data prediction.
研究动机与目标
- 评估常见激活函数在有界训练区域之外对周期函数的外推能力。
- 证明 ReLU、tanh 及其变体在学习周期性方面的不足。
- 提出一种具有周期性归纳偏置的激活(Snake),并分析其优化与初始化。
- 证明一个外推定理,表明 Snake 网络可普遍逼近良构的周期函数。
- 在合成数据、气候/温度与金融时间序列数据上验证 Snake。
提出的方法
- 作者通过实验与理论分析含 ReLU、tanh 及相关激活的网络的外推特性。
- 他们证明两个外推定理,显示 ReLU/tanh 网络的渐近线性或常数行为。
- 他们引入 Snake 激活:Snake_a(x) = x + (1/a) sin^2(a x) 并讨论单调性与优化优势。
- 他们比较像 sin、x+sin(x)、x+sin^2(x) 等变体,以确立 Snake 的优势,包括一个频率参数 a。
- 他们推导 Snake 的初始化考虑,以在各层保持单位预激活方差。
- 他们证明一个普遍外推定理:足够宽的 Snake 网络可以对任意周期为 L 的分段 C^1 周期函数实现一致收敛。
- 他们在图像分类(CIFAR-10)、大气温度预测、体温以及金融数据(Wilshire 5000)等领域应用 Snake,并与基线方法进行比较。
实验结果
研究问题
- RQ1标准激活函数能否在训练区间之外外推周期性模式?
- RQ2通过新激活引入周期性归纳偏置是否能够实现对周期函数的学习与外推?
- RQ3与传统激活相比,Snake 在现实世界的周期性或准周期性时间序列上的表现如何?
- RQ4哪些初始化与架构方面的考虑可以最大化 Snake 的性能?
- RQ5Snake 是否能够对良构的周期函数实现普遍外推?
主要发现
- 标准激活(ReLU、tanh、Swish、基于 sin 的)无法在训练区域之外外推简单周期函数。
- Snake 激活 x + sin^2(x) 诱导周期性归纳偏置,能够对周期信号进行准确插值与外推。
- 与常见基线相比,Snake 作为通用激活在 CIFAR-10 上表现具有竞争力,在温度和金融时间序列任务上表现尤为出色。
- 一个明确的普遍外推定理表明,足够宽的 Snake 网络可以对任意分段 C^1 周期函数实现一致收敛。
- 对 Snake 的适当初始化(方差缩放)可提升训练速度和收敛性,通用任务的实际默认值约为 a ≈ 0.5,显式周期性任务则更大。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。