QUICK REVIEW

[論文レビュー] Neural Networks Fail to Learn Periodic Functions and How to Fix It

Liu Ziyin, Tilman Hartwig|arXiv (Cornell University)|Jun 15, 2020

Neural Networks and Applications参考文献 38被引用数 58

ひとこと要約

この論文は標準的な活性化関数が周期関数を外挿できないことを示し、周期性へ偏りをもたらすSnake活性化（x + sin^2(x)）を導入して周期性の帰納バイアスを促進し、普遍外挿定理と実世界での検証を提示する。

ABSTRACT

Previous literature offers limited clues on how to learn a periodic function using modern neural networks. We start with a study of the extrapolation properties of neural networks; we prove and demonstrate experimentally that the standard activations functions, such as ReLU, tanh, sigmoid, along with their variants, all fail to learn to extrapolate simple periodic functions. We hypothesize that this is due to their lack of a "periodic" inductive bias. As a fix of this problem, we propose a new activation, namely, $x + \sin^2(x)$, which achieves the desired periodic inductive bias to learn a periodic function while maintaining a favorable optimization property of the ReLU-based activations. Experimentally, we apply the proposed method to temperature and financial data prediction.

研究の動機と目的

周期関数のトレーニング領域を越えた外挿を一般的な活性化関数がどのように行うか評価する。
ReLU、tanh、およびその派生が周期性の学習に不適とすることを示す。
周期的帰納バイアスを持つ活性化( Snake )を提案し、その最適化および初期化を分析する。
Snakeネットワークが良く振る舞う周期関数を一様に近似できる外挿定理を証明する。
合成データ、気候/温度、金融時系列データでSnakeを検証する。

提案手法

著者らはReLU、tanh、関連活性化を用いたネットワークの外挿特性を実験的・理論的に分析する。
ReLU/tanhネットワークに対して漸近的に線形または一定の挙動を示す2つの外挿定理を証明する。
Snake活性化を導入：Snake_a(x) = x + (1/a) sin^2(a x) を提案し、単調性と最適化上の利点を議論する。
sin, x+sin(x), x+sin^2(x) などのバリアントを比較してSnakeの利点を確立し、周波数パラメータ a を含めて検討する。
Snakeを階層全体で単位前活性分散を維持する初期化上の考慮事項を導出する。
普遍的外挿定理を証明する：十分な幅を持つ広いSnakeネットワークは、L 周期の任意の分割されたC^1 周期関数に一様収束できる。
Snakeを画像分類（CIFAR-10）、大気温度予測、体温、金融データ（Wilshire 5000）に適用し、ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1標準の活性化関数はトレーニング区間を超えた周期パターンを外挿できるか？
RQ2新しい活性化を介して周期的帰納バイアスを導入することで周期関数の学習と外挿が可能になるか？
RQ3Snakeは従来の活性化と比較して実世界の周期的・準周期的時系列データでどのように性能を示すか？
RQ4Snakeの性能を最大化する初期化・アーキテクチャ上の考慮事項は何か？
RQ5Snakeは良く整理された周期関数の普遍的外挿を実現できるか？

主な発見

Activation Function	monotonic	(semi-)periodic	first non-linear term
ReLU	✓	✗	-
Swish	✓	✗	x^2/4
Tanh	✓	✓	- x^3/3
sin(x)	✗	✓	- x^3/6
x+sin(x)	✓	✓	- x^3/6
x+sin^2(x)	✓	✓	x^2
Snake_a	✓	✓	- (depends on a)
Additional_note	-	-	-

標準的な活性化（ReLU、tanh、Swish、sinベース）は、トレーニング領域を超えた単純な周期関数の外挿に失敗する。
Snake活性化 x + sin^2(x) は周期的帰納バイアスを誘発し、周期信号の正確な補間・外挿を可能にする。
SnakeはCIFAR-10で一般目的の活性化として競争力を示し、温度および金融時系列タスクでは一般的なベースラインと比べて優れる。
十分な幅を持つSnakeネットワークは、連続的なケースの任意の分割C^1周波関数を一様に近似できるという明示的な普遍外挿定理を示す。
Snakeの初期化（分散スケーリング）は訓練速度と収束を改善し、一般的なタスクにはa ≈ 0.5、周期性を明示的に持つ場合にはより大きなaが推奨される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。