Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Networks Fail to Learn Periodic Functions and How to Fix It

Liu Ziyin, Tilman Hartwig|arXiv (Cornell University)|2020. 06. 15.
Neural Networks and Applications참고 문헌 38인용 수 58
한 줄 요약

논문은 표준 활성화가 주기 함수의 외삽을 실패한다는 점을 보여주고, 주기성 편향을 유도하기 위해 Snake 활성화(x + sin^2(x))를 도입하며 보편적 외삽 정리와 실제 세계 테스트를 제시합니다.

ABSTRACT

Previous literature offers limited clues on how to learn a periodic function using modern neural networks. We start with a study of the extrapolation properties of neural networks; we prove and demonstrate experimentally that the standard activations functions, such as ReLU, tanh, sigmoid, along with their variants, all fail to learn to extrapolate simple periodic functions. We hypothesize that this is due to their lack of a "periodic" inductive bias. As a fix of this problem, we propose a new activation, namely, $x + \sin^2(x)$, which achieves the desired periodic inductive bias to learn a periodic function while maintaining a favorable optimization property of the ReLU-based activations. Experimentally, we apply the proposed method to temperature and financial data prediction.

연구 동기 및 목표

  • 일반적인 활성화 함수가 주기 함수에 대해 제한된 학습 영역을 넘어 외삽하는 방식을 평가합니다.
  • ReLU, tanh 및 그 변형이 주기성을 학습하는데 부적합함을 입증합니다.
  • 주기적-유도-편향 활성화(Snake)를 제안하고 그 최적화 및 초기화를 분석합니다.
  • Snake 네트워크가 잘 동작하는 주기 함수에 대해 보편적 외삽을 보장하는 정리를 증명합니다.
  • 합성 데이터, 기후/온도 및 금융 시계열 데이터에 대해 Snake를 검증합니다.

제안 방법

  • 저자들은 ReLU, tanh 및 관련 활성화의 외삽 특성을 실험적으로 및 이론적으로 분석합니다.
  • ReLU/tanh 네트워크에 대해 점진적 선형 또는 상수 동작을 보이는 두 개의 외삽 정리를 증명합니다.
  • Snake 활성화: Snake_a(x) = x + (1/a) sin^2(a x) 를 도입하고 단조성 및 최적화상의 이점을 논의합니다.
  • 주파수 매개변수 a를 포함하여 Snake의 이점을 확립하기 위해 sin, x+sin(x), x+sin^2(x) 등의 변형을 비교합니다.
  • 레이어 간 전 활성 분산을 유지하기 위한 Snake의 초기화 고려사항을 도출합니다.
  • 넓은 폭을 가진 Snake 네트워크가 충분한 폭일 때 어떤 조각적 C^1 주기 함수도 균일하게 수렴할 수 있다는 보편적 외삽 정리를 증명합니다.
  • Snake를 CIFAR-10 이미지 분류, 대기 온도 예측, 체온 예측 및 금융 데이터(Wilshire 5000) 등에 적용하고 일반 기준선과 비교합니다.

실험 결과

연구 질문

  • RQ1표준 활성화 함수가 학습 영역을 넘어 주기 패턴을 외삽할 수 있습니까?
  • RQ2새로운 활성화를 통한 주기적 유도 편향이 주기 함수의 학습과 외삽을 가능하게 합니까?
  • RQ3Snake가 전통적 활성화와 비교해 실제 세계의 주기적 또는 준주기적 시계열에서 어떻게 작동합니까?
  • RQ4Snake의 성능을 극대화하는 초기화 및 아키텍처 구성은 무엇입니까?
  • RQ5Snake가 잘 동작하는 주기 함수에 대해 보편적 외삽이 가능합니까?

주요 결과

Activation Functionmonotonic(semi-)periodicfirst non-linear term
ReLU-
Swishx^2/4
Tanh- x^3/3
sin(x)- x^3/6
x+sin(x)- x^3/6
x+sin^2(x)x^2
Snake_a- (depends on a)
Additional_note---
  • 표준 활성화(ReLU, tanh, Swish, sin 기반)는 학습 영역을 넘어 간단한 주기 함수를 외삽하는 데 실패합니다.
  • Snake 활성화 x + sin^2(x)는 주기적 유도 편향을 유도하고 주기 신호의 정확한 보간 및 외삽을 가능하게 합니다.
  • Snake는 일반 목적 활성화로서 CIFAR-10에서 경쟁력 있는 성능을 보이고, 온도 및 금융 시계열 작업에서 일반적인 기준선과 비교해 우수합니다.
  • 충분한 폭을 가진 Snake 네트워크가 어떤 조각적 C^1 주기 함수도 균일하게 근사할 수 있다는 명시적 보편적 외삽 정리를 제시합니다.
  • Snake의 초기화(분산 스케일링)는 학습 속도와 수렴을 개선하며, 일반 작업에 대한 기본값은 대략 a ≈ 0.5이고 명시적 주기성을 원할 때는 더 큰 a를 권장합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.